こんにちは!
シミュレーション技法研究室で、サロゲートモデルの研究をしているゆうき(@engieerblog_Yu)です。
今回は、CoordNetという座標ベースのサロゲートモデルについて論文をまとめていきたいと思います。
元論文はこちらです。
目次
概観
論文の概観は以下になります。
シミュレーションのデータ生成・可視化画像生成どちらにも対応するようなCoordNetを提案
CoordNetは、NNベースのモデルを使うことで、解像度を変更したり、さまざまなタスク(データ生成・可視化画像生成)に対応できる
背景
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/15dfef351cf68f54b0baf4b1ebff5b02-1024x591.jpg)
背景といたしまして、現在科学的可視化に対して、深層学習技術が用いられています。
科学的可視化に対する深層学習技術を使ったアプローチとしては、シミュレーション結果を学習するデータ生成、可視化画像を学習する可視化画像生成の二つがあります。
関連研究
関連研究として、データ生成に関連する研究と可視化画像生成に関連する研究が挙げられています。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/a443217d20c2e43c6318b66c4a4f21c5-1024x546.jpg)
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/49e817f48b5e624c697a06bb8530dfa1-1024x551.jpg)
ただしこちらは、データ生成、可視化画像生成どちらかのタスクにしか対応できません。
目的
上記の背景から、以下のようなモチベーションが湧きます。
データ生成・可視化画像生成、どちらのタスクにも対応できるようなフレームワークを設計したい
しかし、それには多くの課題があります。
ボリュームデータと画像を含む多様なデータタイプを表現できるように定式化しなければならない
フレームワークの要件として、解像度を変更できるようにしたい
そのような課題を解決することが、CoordNetの目的です。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/9ff966186896a43b21d8a58d6dfd20d0-1024x550.png)
提案手法
提案手法についてです。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/1dbdaf7219a17f1911951c3c28b025cb-1024x562.jpg)
CoordNetは、INRというネットワークを用いていることで、フレームワークを構築しています。
INRを用いる理由を説明するために、CNNの問題からまとめていきます。
CNNの問題
CNNには、以下のような問題点があります。
CNNは高解像度のデータをうまく処理できない
CNNはグリッド状でのみの予測で、間を補完できない
アーキテクチャの設計がタスクに依存する
このようなCNNの問題点を解決するために、INRが用いられます。
INRとは?
INRは、信号のドメイン(すなわち座標)をその座標の値(例えば画像のRGBカラー)にマッピングする連続関数として信号をパラメータ化するようなモデルのことです。
CNNとは異なり、連続的な値を扱うことが特徴です。
今回のCoordNetは、INRをベースとしたモデルが使われています。
INRの利点
INRの利点は以下です。
任意の解像度のデータを処理できる
パラメータ空間を連続的に補間できる(空間的,時間的)
データ生成・可視化生成どちらにも対応
このような利点により、フレームワークを構築することが可能になります。
モデルのアーキテクチャ
モデルのアーキテクチャはEncoder-Decoderベースのネットワークです。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/6f7a9e8ffe8e4b853f93c765ece153f9-1024x574.jpg)
Encoder-Decoderの各層は残差ブロックから構成されます。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/431d9c16edf37183d27e07d83c5f7f2e-1024x628.jpg)
データ生成
データ生成に関しては、TSRとSSRの二つがまとめられていましたが、今回は時間に対する補間(TSR)に対してのみ紹介します。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/397b81bde3c255475a86ea32b6b68688-1024x581.jpg)
上記のスライドのように、一部のタイムステップからその間の値を補間することで、データ生成を行います。
可視化画像生成
可視化画像生成についてです。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/30ce1cfaf0e71d8e2e2072e1e4531259-1024x579.jpg)
可視化画像生成につきましては、時刻は固定で、視点位置を学習します。
視点位置を学習することで、学習データの視点間を補間できます。
結果
結果は以下です。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/45dcd376ca5f79382e1d4f4f2893cb94-1024x537.jpg)
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/10ae877570ac73fd155ef7767af611d3-1024x533.jpg)
画像類似度誤差が他の手法と比較して、小さい傾向にあることがわかります。
![](https://prog-you.com/syohyou/wp-content/uploads/2023/06/89e2abe10cd0a5b1507b2fe39cb9d08d-1024x402.jpg)
それに対して、学習時間は既存手法と比較して大きくなっています。
考察
考察は以下です。
EnCoder-DeCoderで構成することで、データ生成・画像生成どちらにも対応
ニューラルネットワークベースなので、連続的に値を予測でき、解像度を変更できる
座標を学習に使うため、学習サンプルが増加し、学習時間が大きくなる
今後の課題
論文で述べられている、今後の課題は以下です。
学習時間が比較的大きい
画像解析をするために精度が十分とは言えない
学習にないデータの範囲は推論できない
学習時間が比較的大きいという点で、CoordNetの時間の短縮化を図った論文もあるようなので、次回はそちらの方もまとめていきたいと思います。
最後まで読んでいただきありがとうございました。
コメント