【初心者向け】データサイエンスに必要な機械学習の3つの手法を超簡単に説明します

データサイエンス

2022.10.13 2022.04.18

スポンサーリンク

目次

1 はじめに
2 機械学習とは？
3 機械学習の種類
4 教師あり学習
5 教師なし学習
6 強化学習
7 まとめ
8 データサイエンスの記事

スポンサーリンク

目次

はじめに
機械学習とは？
機械学習の種類
教師あり学習
教師なし学習
強化学習
まとめ
データサイエンスの記事

はじめに

ゆうき

ゆうき

こんにちは。学生エンジニアのゆうき(@engieerblog_Yu)です。

今回は

・データサイエンスに興味がある

・機械学習について手っ取り早く理解したい

方向けに機械学習の基礎について解説しました。

ねこすけ

ねこすけ

ここで注意点にゃ。

今回の記事は初心者向けにわかりやすく説明したものですので具体的な手法の部分には触れ切れていないところがあります。

機械学習の概観をイメージできるようになるという目的で見ていただけたら幸いです。

機械学習とは？

まずは機械学習の定義についてです。

入力データからモデルを構築し、それに基づいて未知のデータ(出力データ)を予測する技術

ゆうき

ゆうき

これだけでは抽象的でわかりにくいと思うのでより具体的な機械学習の種類についての話をしたいと思います。

機械学習の種類

次に機械学習の種類についてです。

機械学習には三つの種類があります。

教師あり学習

教師なし学習

強化学習

の三つです。

より具体的に表で表したものが以下です。

	入力に関するデータ	出力に関するデータ(正解データ)	代表例
教師あり学習	あり	あり	回帰・分類問題
教師なし学習	あり	なし	クラスタリング・次元削減
強化学習	あり	なし(正解の代わりに報酬が与えられる)	囲碁、将棋など

機械学習の種類

それぞれについて詳しく解説していきます。

教師あり学習

まずは教師あり学習の例をお見せしようと思います。

上記の画像は住宅の敷地面積と住宅の価格が与えられたデータセットの価格予測です。

価格予測は回帰問題で、教師あり学習にあたります。

なぜなら正解データ(青点)が与えられているからです。

教師あり学習の回帰問題では青点の情報を用いてデータを平均化したような黄線をひくことが目的です。

つまり上記の画像であれば敷地面積が1800m^2だったら住宅の価格は黄色の線を見て、大体500000ドルになりそうだとわかるということです。

今回は一例として回帰問題を紹介しましたが、教師あり学習には分類問題もあります。

回帰問題は出力が価格のような○○円というような数値に対して、分類問題は出力が○か×かというような問題を扱います。

教師あり学習には主に回帰問題と分類問題がある

【データサイエンス】単回帰分析で住宅価格を予測してみる【scikit-learn最初の一歩】

学生エンジニアのゆうき( @engieerblog_Yu )です。今回はscikit-learnというデータ分析のライブラリを使って単回帰分析を行っていこうと思います。 Pythonを用いたデータ分析の入門にはscikit-learnがお勧めです。データ分析に興味がある方は必見です。

【scikit-learn入門】ロジスティック回帰を使ってワイン分類をやってみよう

こんにちは。学生エンジニアのゆうき( @engieerblog_Yu )です。今回はscikit-learnというデータ分析のライブラリを使ってワイン分類を行っていこうと思います。データサイエンスを楽しんでいただけたら嬉しいです。

教師なし学習

次に教師なし学習の例をお見せします。

上記の画像が表しているものはクラスタリングといい、性質が似た集団を同じグループに分けるといった手法です。

簡単にいうと近くにいる点をグループに分けてしまおうということです。

どの点がどの集団に属しているかという正解データがないため、クラスタリングは教師なし学習と言われます。

実際にコードを動かしてクラスタリングを行っている記事も過去に出しているのでそちらもどうぞ。

【KMeans】機械学習を使ったクラスタリングを簡単に解説【Python】

学生エンジニアのゆうき( @engieerblog_Yu )です。今回の記事は特にこれらに当てはまる方におすすめです。データサイエンスに興味がある、クラスタリングについて知りたい、機械学習を使ってみたい、今回の記事を読めばクラスタリングの基礎が理解でき、機械学習を使ったデータサイエンスができるようになります。

主成分分析(PCA)を使ってワイン分類を簡単かつ正確にやってみよう【次元削減】

学生エンジニアのゆうき( @engieerblog_Yu )です。今回は主成分分析を用いて以前私が行ったワイン分類の正確率を上げていこうと思います。データ分析に興味がある、scikit-learnを使ってみたい方にお勧めの記事です。

また教師なし学習には次元削減と言ったものもあります。

次元削減とは、例えば時間、空間、温度、、、、などたくさんの次元を持ったデータを扱おうとすると扱いにくい、計算量が膨大になるという問題が発生します。

そう言った時に次元削減を用いると、データの情報の大部分を残したまま計算量を減らすことができます。

教師なし学習には主にクラスタリングと次元削減がある

強化学習

強化学習の例として最もよく挙げられるのが囲碁・将棋・チェスなどのAIです。

例えば将棋の強化学習の目的は

相手の王将をとること

です。

この目的を達成するために最適な一手を探索します。

具体的にどうやって探索するかというと自分の一手と相手の一手をそれぞれ報酬とし、報酬を最大化する行動を選択し続けます。

より具体的にいうと、

自分が+3点の行動をとり相手が-9点の行動をとる計-6点

自分が+6点の行動をとり相手が-3点の行動をとる計+3点

であればより報酬が高い+3点の行動を選択します。

このような無限に近い数の選択肢を報酬を最大化するという手段を用いて最適解を探し続けるのです。

強化学習の代表例は囲碁・将棋・チェスなどのAI

データサイエンティストを本気で目指す大学生におすすめスクール3選

どーも、学生エンジニアのゆうき(@engineerblog_Yu)です。突然ですが、データサイエンティストになりたい、データサイエンスに興味がある大学生の方で、こう思っている方はいませんか？何から勉強していいかわからない...

まとめ

それではまとめです。

機械学習とは入力データからモデルを構築し、それに基づいて未知のデータ(出力データ)を予測する技術

機械学習には教師あり学習、教師なし学習、強化学習の三つがある

教師あり学習は主に回帰問題と分類問題に分けられる

教師なし学習は主にクラスタリングと次元削減に分けられる

強化学習の代表例は囲碁・将棋・チェスなどのAI

今回は機械学習の概観について紹介しました。

機械学習を勉強していると自分は今何をしているのか？と言った疑問にぶつかることがよくあると思うのでその時は都度本記事を読み返していただけたら嬉しいです。

回帰問題を具体的にどうやって解く、次元削減をどうやって行うといったことまでは触れられなかったのでおいおい記事を出していこうかと思います。

ねこすけ

ねこすけ

他にもいろんな記事があるにゃ。

データサイエンスの記事

【データサイエンス】0から機械学習を学ぶことができる勉強法公開【タイプ別三つ】

はじめにゆうきこんにちは。学生エンジニアのゆうき(@engieerblog_Yu)です。今回はデータサイエンス入門として機械学習の勉強方法について解説していこうと思います。データサイエンスには可視化、機...

【機械学習】重回帰分析でより良くボストン住宅価格を予測してみよう(初心者向け)

今回はscikit-learnを使って住宅の価格予測を行っていこうと思います。データサイエンスに取り組みたいけど何をやっていいかわからない、、。という方におすすめの記事です。

【OpenCV】機械学習を使った顔検出をたったの○行のコードで実装してみる(画像処理)

今回は機械学習に興味があるけど何をすればいいかわからない、機械学習をやってみたい、画像処理に興味があるという方向けに簡単な機械学習で画像処理を行なっていきたいと思います。

コメント

タイトルとURLをコピーしました