Xavierの初期値・Heの初期値を使ったニューラルネットワークの重みの初期値設定

データサイエンス

2023.05.13 2022.09.12

スポンサーリンク

目次

1 はじめに
2 重みパラメータの値が大きい＝過学習
3 重みを大きくさせないためには初期値も小さくした方が良い
4 重みの初期値を全て均一の値にしてはいけない
5 重みの初期値はどれくらい小さくすればいいのか？
6 Xavierの初期値
7 Heの初期値
8 まとめ
9 AI美女生成に興味がある方
10 ChatGPT技術に興味がある方

スポンサーリンク

目次

はじめに
重みパラメータの値が大きい＝過学習
重みを大きくさせないためには初期値も小さくした方が良い
重みの初期値を全て均一の値にしてはいけない
重みの初期値はどれくらい小さくすればいいのか？
Xavierの初期値
Heの初期値
まとめ
AI美女生成に興味がある方
ChatGPT技術に興味がある方

はじめに

こんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。

今回はニューラルネットワークの重みの初期値設定で使われるXavierの初期値・Heの初期値についてまとめていきたいと思います。

重みパラメータの値が大きい＝過学習

前回の記事でも述べましたが、ニューラルネットワークで学習したいパラメータの一つに、重みがあります。

【機械学習】勾配降下法による重みとバイアスの最適化(損失関数・学習率)

こんにちは。将棋と筋トレが好きな、学生エンジニアのゆうき( @engieerblog_Yu )です。今回はニューラルネットワークのモデルの学習に使われる勾配降下法についてまとめていきたいと思います。勾配降下法についてニューラルネットワークのモデル学習では、重みとバイアスを最適化していきます。重みとバイアス…

重みを学習しすぎてしまうと値が大きくなってしまい、過学習になってしまいます。

ニューラルネットワークの学習モデルの汎化性能を高めるためには、重みが大きくなりすぎないことが大切です。

ニューラルネットワークの学習モデルの汎化性能を高めるためには、重みが大きくなりすぎないことが大切

重みを大きくさせないためには初期値も小さくした方が良い

学習後の重みパラメータの値が大きくなりすぎないためには、重みの初期化に気を払わなければなりません。

具体的には、重みの初期パラメータを小さくする必要があります。

しかしここで疑問が生じます。

初期パラメータはどれくらい小さくすれば良いのか？

全て０ではダメなのか？

といったものです。

次にこの疑問についてまとめていきます。

重みの初期値を全て均一の値にしてはいけない

結論ですが、先ほどの全て０ではダメなのか？という疑問に対しての答えは「ダメ」です。

重みの初期値を全て均一の値にしてしまうと、順伝播の過程で全て同じ値が入力されてしまいます。

これでは重みをたくさん設定するために、ニューラルネットワークを大きくした意味がなくなってしまいます。

一般に重みをバラつかせるために、ランダムな初期値を設定することが必要とされています。

重みパラメータの初期値は、ランダムに設定する必要がある

重みの初期値はどれくらい小さくすればいいのか？

重みの初期値はどれくらい小さくすればいいのか？という疑問に対しての、現状の最適解はXavierの初期値・Heの初期値を用いるということです。

それぞれの詳細を説明していきます。

Xavierの初期値

Xavierの初期値とは活性化関数がSigmoidかtanhである場合に使われます。

活性化関数(ステップ・シグモイド・ReLU)をPythonで実装

はじめに今回は前回のパーセプトロンから、ニューラルネットワークを考えるために、活性化関数について触れていきたいと思います。パーセプトロンとニューラルネットワークの違いパーセプトロンは前回の記事で、以下のように表されると学びました。 (今回θの…

重みの初期値を\(\frac{1}{\sqrt{n}}\)の標準偏差を持つ正規分布で初期化するというものです。

活性化関数がSigmoidかtanhであれば、Xavierの初期値を使うのが良いとされている

Xavierの初期値は活性化関数が線形である場合に使われ、Sigmoidとtanhは中央付近で線形近似を行うことができるので相性がいいということになります。

Xavierの初期値を使うことで適度に広がりを持ったデータをニューラルネットワークに流すことができます。

Heの初期値

Heの初期値とは活性化関数がReLUである場合に使われます。

重みの初期値を\(\sqrt{\frac{2}{n}}\)の標準偏差を持つ正規分布で初期化するというものです。

活性化関数がReLUであれば、Heの初期値を使うのが良いとされている

まとめ

ニューラルネットワークの学習モデルの汎化性能を高めるためには、重みが大きくなりすぎないことが大切

重みパラメータの初期値は、均一でないランダムな値に設定する必要がある

活性化関数がSigmoidかtanhであれば、Xavierの初期値を使うのが良いとされている

活性化関数がReLUであればHeの初期値を使うのが良いとされている

今回はニューラルネットワークの重みの初期化に使われるXavier・Heの初期値についてまとめました。

機械学習、ディープラーニングを学びたい方におすすめの入門書籍です。

ディープラーニングの理論が分かりやすくまとめられていて、力を身につけたい方におすすめです。

リンク

ゆうき

ゆうき

最後まで読んでいただきありがとうございました。

ねこすけ

ねこすけ

他のおすすめ記事にゃ。

【Affine・Softmax】ニューラルネットワークの誤差逆伝播法を使って分類問題を解く(Python)

はじめにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回はニューラルネットワークの勾配の計算に用いられる、誤差逆伝播法のAffineレイヤ・Softmaxレイヤについてまと...

【数値微分】前方差分・中心差分・後方差分をPythonで実装して比較する

初めにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回は３種類の数値微分の手法を実装して比較していきたいと思います。微分の定義(前方差分・中心差分・後方差分)...

【物理量を使った最適化手法】Momentum法をPythonで実装する

はじめにこんにちは。将棋と筋トレが好きな、情報系大学生のゆうき(@engieerblog_Yu)です。今回はニューラルネットワークの最適化問題を解く手法である、モーメンタム法についてまとめていきたいと思います。Mo...

AI美女生成に興味がある方

Stable Diffusionを使ってAI美女を生成する方法についてもnoteで解説しています。

美女生成note

ChatGPT技術に興味がある方

完全版noteで、ChatGPTのおすすめChrom拡張機能5つと収益化方法について解説しています。

完全版noteでは、以下について解説しています。

Googleスプレッドシートやドキュメントの自動入力

ツイートの自動返信

Youtube動画の自動要約

Gmailの自動返信

検索画面にChatGPTの結果表示

コメント

タイトルとURLをコピーしました