はじめに
こんにちは。学生エンジニアのゆうき(@engieerblog_Yu)です。
今回は
・データサイエンスに興味がある
・機械学習について手っ取り早く理解したい
方向けに機械学習の基礎について解説しました。
ここで注意点にゃ。
今回の記事は初心者向けにわかりやすく説明したものですので具体的な手法の部分には触れ切れていないところがあります。
機械学習の概観をイメージできるようになるという目的で見ていただけたら幸いです。
機械学習とは?
まずは機械学習の定義についてです。
入力データからモデルを構築し、それに基づいて未知のデータ(出力データ)を予測する技術
これだけでは抽象的でわかりにくいと思うのでより具体的な機械学習の種類についての話をしたいと思います。
機械学習の種類
次に機械学習の種類についてです。
機械学習には三つの種類があります。
教師あり学習
教師なし学習
強化学習
の三つです。
より具体的に表で表したものが以下です。
入力に関するデータ | 出力に関するデータ(正解データ) | 代表例 | |
教師あり学習 | あり | あり | 回帰・分類問題 |
教師なし学習 | あり | なし | クラスタリング・次元削減 |
強化学習 | あり | なし(正解の代わりに報酬が与えられる) | 囲碁、将棋など |
それぞれについて詳しく解説していきます。
教師あり学習
まずは教師あり学習の例をお見せしようと思います。
上記の画像は住宅の敷地面積と住宅の価格が与えられたデータセットの価格予測です。
価格予測は回帰問題で、教師あり学習にあたります。
なぜなら正解データ(青点)が与えられているからです。
教師あり学習の回帰問題では青点の情報を用いてデータを平均化したような黄線をひくことが目的です。
つまり上記の画像であれば敷地面積が1800m^2だったら住宅の価格は黄色の線を見て、大体500000ドルになりそうだとわかるということです。
今回は一例として回帰問題を紹介しましたが、教師あり学習には分類問題もあります。
回帰問題は出力が価格のような○○円というような数値に対して、分類問題は出力が○か×かというような問題を扱います。
教師あり学習には主に回帰問題と分類問題がある
教師なし学習
次に教師なし学習の例をお見せします。
上記の画像が表しているものはクラスタリングといい、性質が似た集団を同じグループに分けるといった手法です。
簡単にいうと近くにいる点をグループに分けてしまおうということです。
どの点がどの集団に属しているかという正解データがないため、クラスタリングは教師なし学習と言われます。
実際にコードを動かしてクラスタリングを行っている記事も過去に出しているのでそちらもどうぞ。
また教師なし学習には次元削減と言ったものもあります。
次元削減とは、例えば時間、空間、温度、、、、などたくさんの次元を持ったデータを扱おうとすると扱いにくい、計算量が膨大になるという問題が発生します。
そう言った時に次元削減を用いると、データの情報の大部分を残したまま計算量を減らすことができます。
教師なし学習には主にクラスタリングと次元削減がある
強化学習
強化学習の例として最もよく挙げられるのが囲碁・将棋・チェスなどのAIです。
例えば将棋の強化学習の目的は
相手の王将をとること
です。
この目的を達成するために最適な一手を探索します。
具体的にどうやって探索するかというと自分の一手と相手の一手をそれぞれ報酬とし、報酬を最大化する行動を選択し続けます。
より具体的にいうと、
自分が+3点の行動をとり相手が-9点の行動をとる計-6点
自分が+6点の行動をとり相手が-3点の行動をとる計+3点
であればより報酬が高い+3点の行動を選択します。
このような無限に近い数の選択肢を報酬を最大化するという手段を用いて最適解を探し続けるのです。
強化学習の代表例は囲碁・将棋・チェスなどのAI
まとめ
それではまとめです。
機械学習とは入力データからモデルを構築し、それに基づいて未知のデータ(出力データ)を予測する技術
機械学習には教師あり学習、教師なし学習、強化学習の三つがある
教師あり学習は主に回帰問題と分類問題に分けられる
教師なし学習は主にクラスタリングと次元削減に分けられる
強化学習の代表例は囲碁・将棋・チェスなどのAI
今回は機械学習の概観について紹介しました。
機械学習を勉強していると自分は今何をしているのか?と言った疑問にぶつかることがよくあると思うのでその時は都度本記事を読み返していただけたら嬉しいです。
回帰問題を具体的にどうやって解く、次元削減をどうやって行うといったことまでは触れられなかったのでおいおい記事を出していこうかと思います。
他にもいろんな記事があるにゃ。
コメント