- 学習に使うデータセットをインポートする
- データがCSV形式のファイル内に保存されているのであれば、Pandas を使って読み込みます。
- インポートしたデータを計測データと教師データに分ける
- 必要によっては「欠損データの穴埋め」や「カテゴリの数値化」を行います。
- データを訓練データとテストデータに分ける
- テストデータの割合を考慮して過学習を防ぐ。
-
ランダムに並び替えて分割する必要があります。 簡単に扱える train_test_splitを使います。これ1行を実行するだけで、ランダムに並び替えたものを分割して、4つのファイルを取得することができます。
sklearn.model_selection.train_test_split – scikit-learn 0.19 documentation
- スケーリングを行う(必要な場合で可)
- スケーリング は、各列の数値データの範囲を、およそ「-1以上1以下」の範囲に収められるように再計算することをいいます。
- 訓練データを用いて分類器(Classifier)を作成する
- 学習を実施した結果、分類器(Classifier) というものができあがります。データをこの器械に投入することで、ひとつの決断(分類結果・予測結果)を出してくれます。
- テストデータを分類器にかけて分類を実施する
- 完成した分類器を実利用する前に、分類機の正確さなどを検証する必要があります。
- 結果を表示する
- 「分類器が判断した答えと実際の正解を比較した結果」を表示する方法やMatplotlibでグラフ化する方法などがあります。
機会学習の流れ
PREV
scikit-learn 覚書




