|
|
|
@ -1,6 +1,7 @@
|
|
|
|
|
# Scikit-learnを用いた回帰モデルの構築: データの準備と可視化
|
|
|
|
|
|
|
|
|
|
> ![データの可視化に関するインフォグラフィック](../images/data-visualization.png)
|
|
|
|
|
>
|
|
|
|
|
> [Dasani Madipalli](https://twitter.com/dasani_decoded) によるインフォグラフィック
|
|
|
|
|
|
|
|
|
|
## [講義前のクイズ](https://jolly-sea-0a877260f.azurestaticapps.net/quiz/11/)
|
|
|
|
@ -18,7 +19,7 @@ Scikit-learnを使って機械学習モデルの構築を行うために必要
|
|
|
|
|
|
|
|
|
|
どのような質問に答えるかによって、どのようなMLアルゴリズムを活用するかが決まります。また、返ってくる回答の質は、データの性質に大きく依存します。
|
|
|
|
|
|
|
|
|
|
このレッスンのために用意された[データ]((../../data/US-pumpkins.csv))を見てみましょう。この.csvファイルは、VS Codeで開くことができます。ざっと確認してみると、空欄があったり、文字列や数値データが混在していることがわかります。また、'Package'という奇妙な列では 'sacks' や 'bins' などの異なる単位の値が混在しています。このように、データはちょっとした混乱状態にあります。
|
|
|
|
|
このレッスンのために用意された[データ]((../../data/US-pumpkins.csv))を見てみましょう。この.csvファイルは、VS Codeで開くことができます。ざっと確認してみると、空欄があったり、文字列や数値データが混在していることがわかります。また、「Package」という奇妙な列では「sacks」や 「bins」などの異なる単位の値が混在しています。このように、データはちょっとした混乱状態にあります。
|
|
|
|
|
|
|
|
|
|
実際のところ、MLモデルの作成にすぐに使えるような整ったデータセットをそのまま受け取ることはあまりありません。このレッスンでは、Pythonの標準ライブラリを使って生のデータセットを準備する方法を学びます。また、データを可視化するための様々なテクニックを学びます。
|
|
|
|
|
|
|
|
|
@ -141,7 +142,7 @@ Visual Studio Codeで _notebook.ipynb_ ファイルを開き、スプレッド
|
|
|
|
|
|
|
|
|
|
データサイエンティストの役割の一つは、扱うデータの質や性質を示すことです。そのために、データのさまざまな側面を示す興味深いビジュアライゼーション(プロット、グラフ、チャート)を作成することがよくあります。そうすることで、他の方法では発見しにくい関係性やギャップを視覚的に示すことができます。
|
|
|
|
|
|
|
|
|
|
また、可視化することでデータに適した機械学習の手法を判断することができます。例えば、散布図が直線に沿っているように見える場合は、線形回帰が適用する手法の良い候補の一つとして考えられます。
|
|
|
|
|
また、可視化することでデータに適した機械学習の手法を判断することができます。例えば、散布図が直線に沿っているように見える場合は、適用する手法の候補の一つとして線形回帰が考えられます。
|
|
|
|
|
|
|
|
|
|
Jupyter notebookでうまく利用できるテータ可視化ライブラリの一つに [Matplotlib](https://matplotlib.org/) があります (前のレッスンでも紹介しています)。
|
|
|
|
|
|
|
|
|
@ -171,11 +172,11 @@ Jupyter notebookでうまく利用できるテータ可視化ライブラリの
|
|
|
|
|
|
|
|
|
|
これは役に立つプロットですか?なにか驚いたことはありますか?
|
|
|
|
|
|
|
|
|
|
これはデータをある月についてデータの広がりとして表示しているだけなので、特に役に立つものではありません。
|
|
|
|
|
これはデータをある月について、データの広がりとして表示しているだけなので、特に役に立つものではありません。
|
|
|
|
|
|
|
|
|
|
### 活用できるようにする
|
|
|
|
|
|
|
|
|
|
グラフに有用なデータを表示するには、通常、データを何らかの方法でグループ化する必要があります。ここでは、X軸で月を表し、データの分布を示すようなプロットを作ってみましょう。
|
|
|
|
|
グラフに有用なデータを表示するには、通常、データを何らかの方法でグループ化する必要があります。ここでは、X軸を月として、データの分布を示すようなプロットを作ってみましょう。
|
|
|
|
|
|
|
|
|
|
1. セルを追加してグループ化された棒グラフを作成します。
|
|
|
|
|
|
|
|
|
|