leave-p-out Cross Validation(P個抜き交差検証)について解説

データサイエンス

2022.09.26

スポンサーリンク

目次

1 初めに
2 交差検証とは？
3 異なる訓練データの組をk回抽出→モデルをk個作成する
4 leave-p-out Cross Validationを図で表したもの
5 補足
6 まとめ

スポンサーリンク

目次

初めに
交差検証とは？
異なる訓練データの組をk回抽出→モデルをk個作成する
leave-p-out Cross Validationを図で表したもの
補足
まとめ

初めに

こんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。

今回は、過学習を避けるために一般的に用いられている、leave-p-out Cross Validation(P個抜き交差検証)についてまとめていきます。

類似している手法としてk分割交差検証というものもあります。

【過学習対策】k分割交差検証(k-fold Cross Validation)について解説します

初めにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回は、一般的に過学習を避けるために用いられている、k分割交差検証についてまとめていきます。交差検証とは？...

交差検証とは？

交差検証では、訓練データを変えたモデルを何個も作り、それらを平均化したモデルを作成します。

交差検証の目的は、過学習を避けるためです。

交差検証の概観は以下のようになります。

①全データの中から、テスト用データを10%ランダムに抽出する

②全データの70%と20%を訓練用データと検証用データに分ける

③モデルを学習させる

④抽出するデータを変えてk回②,③を行う

⑤k個のモデルを平均化して予測モデルを構築する

⑥予測モデルの性能をテストデータで確認する

ざっくりまとめると以下のような図になります。

④と⑤について、よく分かりにくいと思うのでより具体的に解説していきます。

交差検証は過学習を避けるために用いられる

異なる訓練データの組をk回抽出→モデルをk個作成する

テスト用のデータをランダムに抽出して、残ったデータから訓練データをk回抽出します。

それぞれランダムに抽出された訓練用データに対して、モデルをk個作成します。

P個ぬき交差検証と呼ばれているのは、この段階で検証用のデータをP個抜き出していることが由来です。

検証用のデータは、回帰アルゴリズムを用いる際の、ハイパーパラメータの調整に使われます。

【学習率・正則化・アーキテクチャ】ハイパーパラメータについて(ニューラルネットワーク)

こんにちは。将棋と筋トレが好きな、学生エンジニアのゆうき( @engieerblog_Yu )です。今回はニューラルネットワークのモデルのハイパーパラメータについてまとめていきたいと思います。ハイパーパラメータとは？ニューラルネットワークのパラメータ(重みやバイアス)は、誤差逆伝播法や勾配降下法を用いて計算されます。 …

それらのk個の学習済みモデルを平均化したものを予測モデルとします。

leave-p-out Cross Validationを図で表したもの

leave p-out Cross Validationを図で表したものは以下のようになります。

全データからテストデータを抽出して、残ったデータからk個のモデルを作成し、それらを平均化したものをモデルとします。

適切に繰り返しの回数kを大きくすると、モデルの精度は良くなる傾向があります。

補足

データセットが大きい場合、テスト用データと検証用データを少なくして、訓練用データを70%より大きくするというようなこともあるようです。

まとめ

K分割交差検証は過学習を避けるために用いられ、以下の流れで実装される

①全データの中から、テスト用データを10%ランダムに抽出する

②全データの70%と20%を訓練用データと検証用データに分ける

③モデルを学習させる

④抽出するデータを変えてk回②,③を行う

⑤k個のモデルを平均化して予測モデルを構築する

⑥予測モデルの性能をテストデータで確認する

今回は、過学習対策に用いられるleave-p-out Cross Validationについてまとめました。

機械学習、ディープラーニングを学びたい方におすすめの入門書籍です。

ディープラーニングの理論が分かりやすくまとめられていて、力を身につけたい方におすすめです。

リンク

ゆうき

ゆうき

最後まで読んでいただきありがとうございました。

ねこすけ

ねこすけ

他にもいろんな投稿があるにゃ。

【明示的な正則化】データオーグメンテーション・Weight Decay・Dropoutについて

初めにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回は、ニューラルネットワークの明示的な正則化についてまとめていきたいと思います。正則化とは？ニューラルネ...

【無料全22回】Pythonで学ぶ機械学習入門編(記事まとめ)

初めにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回は機械学習入門者向けに、Pythonを動かしながら学べる記事全20回をまとめました！理論から実践的なコーディン...

【ノルム最小化・フラットな解・宝くじ仮説】ニューラルネットワークの隠的正則化について

こんにちは。将棋と筋トレが好きな、学生エンジニアのゆうき( @engieerblog_Yu )です。今回はニューラルネットワークの隠的正則化についてまとめていきたいと思います。隠的正則化とは？ニューラルネットワークには、対象とする問題の複雑さに合わせてモデルの複雑さを制御するという性質があります。 …

コメント

タイトルとURLをコピーしました