目次
初めに
どーも、シミュレーション研究室で可視化について研究しているゆうき(@engineerblog_Yu)です。
GANを用いて生成した画像を評価する際に、画像類似度指標を用いたので今回はそちらについてまとめていきたいと思います。
PSNR(Peak Signal to NoizeRatio)
PSNRは最大画素値とノイズの比率を計算します。
\(PSNR=10log_{10}\frac{MAX^2}{MSE}\)
(MAX:最大画素値,MSE:平均二乗誤差)
しかしPSNRでは、(局所的にかなり異なる)≒(全体的に僅かに異なる)となってしまい、違いがわかりません。
人間の視覚特性的には、全体的に僅かに異なる方が類似度が低いと感じてしまうので、PSNRは、人間の視覚とはあまりマッチしていないという表現もできます。
SSIM(Structual Similarity)
SSIMでは、画素値(輝度)、コントラスト、構造の変化を評価することができます。
SSIMはPSNRの問題点を改善するために考えられた指標で、以下の式で定義されます。
\(SSIM(x,y)=\frac{(2μ_xμ_y+C_1)(2σ_{xy}+C_2)}{(μ^2_{x}+μ^2_y+C_1)(σ^2_x+σ^2_y+C_2)}\)
(C:定数,σ:標準偏差,μ:平均画素値)
EMD(Earth Mover’s Distance)
EMDとは、画像の画素値の分布の距離を測定するユークリッド距離のような距離の指標です。
画像の画素値の分布が似ていれば、画像の類似度も高いと考えることができます。
LPIPS(Learned Perceptual Image Patch Similarity)
LPIPSは、AlexNetやVGGなどの学習済み画像分類ネットワークの畳み込み層が出力する特徴量を基にした基準です。
LPIPSについての公式論文は以下から参照できます。
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
公式ページの上記の画像からもわかる通り、Humans(人間の感覚)とPSNR,SSIMなどの指標はあまりマッチしていないことが分かります。
それに対して、学習済みネットワークを用いた指標は、正しく人間の感覚を捉えられることが多いようです。
SSIMやPSNRでは、ピクセルの輝度やコントラストなどにしか注目できないので、ニューラルネットワークによって、特徴量を基にするLPIPSの方が一般的に精度が高いと言われているそうです。
参考にさせていただいたサイト
生物の色彩パターン距離の評価にDEEP FEATURESを用いる意義
終わりに
今回は画像類似度として用いられているSSIM,PSNR,EMD,LPIPSについて簡単にまとめてみました。
最も精度が高いと言われているのはLPIPSですが、誤差評価の指標として最新の論文でもSSIM,PSNR,EMDが用いられているのをよく見かけます。
今後、より良い画像類似度の指標ができていくのか見ものですね。
最後まで読んでいただきありがとうございました。
コメント