機会学習の流れ

  • 学習に使うデータセットをインポートする
    1. データがCSV形式のファイル内に保存されているのであれば、Pandas を使って読み込みます。
  • インポートしたデータを計測データと教師データに分ける
    1. 必要によっては「欠損データの穴埋め」や「カテゴリの数値化」を行います。
  • データを訓練データとテストデータに分ける
    1. テストデータの割合を考慮して過学習を防ぐ。
    2. ランダムに並び替えて分割する必要があります。 簡単に扱える train_test_splitを使います。これ1行を実行するだけで、ランダムに並び替えたものを分割して、4つのファイルを取得することができます。

      sklearn.model_selection.train_test_split – scikit-learn 0.19 documentation

  • スケーリングを行う(必要な場合で可)
    1. スケーリング は、各列の数値データの範囲を、およそ「-1以上1以下」の範囲に収められるように再計算することをいいます。
  • 訓練データを用いて分類器(Classifier)を作成する
    1. 学習を実施した結果、分類器(Classifier) というものができあがります。データをこの器械に投入することで、ひとつの決断(分類結果・予測結果)を出してくれます。
  • テストデータを分類器にかけて分類を実施する
    1. 完成した分類器を実利用する前に、分類機の正確さなどを検証する必要があります。
  • 結果を表示する
    1. 「分類器が判断した答えと実際の正解を比較した結果」を表示する方法やMatplotlibでグラフ化する方法などがあります。
PAGE TOP