機械学習入門
概要を把握するには、このシリーズはおすすめです。
ざっと目を通してみたんですが、 機械学習やる前に統計解析の部分は一通りやっておいたほうが理解が早そうな印象です。
機械学習とは
- データの集合からその法則性を効率的に発見するための手法の集合
- 法則性を学ぶことができれば、将来を予測したり、未知のデータに対してその法則性に則った推定を行うことができる
具体的な作業の流れ
分類アルゴリズムの学習
上記で分類アルゴリズムを選択した場合、以下のように作業が続く
- 訓練データの入力
- 機械はデータを与えただけでは学ぶことができない
- 正解事例がなければ、法則を学習することはできない
- データと正解がペアになったデータの集合を訓練データ、学習データと呼ぶ
- 正解情報は手動でひとつひとつ正解をつけてやるか、何らかの基準によって自動的に与える
- 訓練データの入力により、モデルが更新される
- できあがったモデルを用いてテストするデータの入力に対して予測を返す
このようにして、十分な学習を進めていくと、
汎用的なモデルが得られ、訓練データに含まれていないデータに対しても正しく予測することが可能となる
モデルとプロセス(「機械学習アルゴリズムの適用」の詳細)
モデル
- 学習の結果得られた法則性を表すもの
プロセス
- 与えられたデータをもとに何らかの基準について、より望ましい出力が得られるようにモデルを改変する
例
- 初期状態が設定された初期モデルに対し、データを与えてアルゴリズムを適用すると、パラメータが更新された学習済みモデルが得られる
- そのモデルに対して新たなデータを入力する
- 学習した法則にもとづいて計算された認識や予測の結果が出力される
最良のモデルを得るために
このような作業を繰り返すことが機械学習適用におけるデータサイエンティストの役割
であり、腕の見せどころでもあるとな。
どういうツールを使えば良いの?
- 機械学習ソフトウェア分類
データ分析者が使用するツール
のアンケート結果を見ると以下のものが使えるようになると良さそうです
加えて、以下も使えると良さそう
- Apache Mahout
- Spark Mlib