機会学習の流れ

ホーム
ブログ
Python, 機械学習
機会学習の流れ

Python
2019.04.16

学習に使うデータセットをインポートする
1. データがCSV形式のファイル内に保存されているのであれば、Pandas を使って読み込みます。
インポートしたデータを計測データと教師データに分ける
1. 必要によっては「欠損データの穴埋め」や「カテゴリの数値化」を行います。
データを訓練データとテストデータに分ける
1. テストデータの割合を考慮して過学習を防ぐ。
2. ランダムに並び替えて分割する必要があります。簡単に扱える train_test_splitを使います。これ1行を実行するだけで、ランダムに並び替えたものを分割して、4つのファイルを取得することができます。
  
  sklearn.model_selection.train_test_split – scikit-learn 0.19 documentation
スケーリングを行う（必要な場合で可）
1. スケーリング は、各列の数値データの範囲を、およそ「-1以上1以下」の範囲に収められるように再計算することをいいます。
訓練データを用いて分類器（Classifier）を作成する
1. 学習を実施した結果、分類器（Classifier） というものができあがります。データをこの器械に投入することで、ひとつの決断（分類結果・予測結果）を出してくれます。
テストデータを分類器にかけて分類を実施する
1. 完成した分類器を実利用する前に、分類機の正確さなどを検証する必要があります。
結果を表示する
1. 「分類器が判断した答えと実際の正解を比較した結果」を表示する方法やMatplotlibでグラフ化する方法などがあります。