機械で生成されたアートの好感度評価に向けて（Coleman et al., 2019）

f:id:jin428:20210520183133j:plain

みなさんこんにちは！

微かに混じり合う教育と心理学とアートを考えていますじんぺーです。

今日も論文を読んでいきます。

www.jinpe.biz

機械で生成されたアートの好感度評価に向けて（Coleman et al., 2019）

背景

■計算創造性は、現実的かつ美的なオリジナルコンテンツを生成しようとするものである

・Generative Adversarial Networks (GAN) は、しばしば選択されるモデル

・古典的なGANの学習目的は、学習データを超えた新規コンテンツの生成を促進するものではない

■しかし、最近の研究では、GANに斬新な画像の生成を促すことができるようになった

・Elgammalは、モデルが既存のアートスタイルから逸脱するように促すことで、GANが新しい斬新な絵画を生成するように適応した

・ファッションでは、Sbaiが、見たことのないファッションデザインを生成するモデルを開発

・ElgammalとSbaiは、GANのDiscriminator Dに、画像のクラスを予測するヘッドを追加することで、これを実現

・するとGeneratorは、実在するような例だけでなく、Dがクラスを割り当てるのが難しい例も生成するようになる

方法

■CANモデル

・ファッションではなくアートのWikiArtデータセットを対象とする

・我々のネットワークが斬新なアート作品を生成することを確認した後、120枚の画像を用いて人間による評価試験を行った

・120枚の画像のうち、半分は合成世代（synthetic generations）の画像で、残りの半分はミニマリズム、抽象表現主義、アートバーゼルなどの現代アートの動きから得られたアート作品

■13人のプロのアーティストに以下の質問

（1）作品の好き嫌いを1～5で評価

（2）その作品が人間のアーティストが作ったものか、コンピュータが作ったものかを推測

■Amazon Mechanical Turkの評価者からも，画像1枚につき5件の回答を収集

・これは，アーティストのデータを使ってMTurkの回答を検証することで，評価を拡大することを意図した

・これらの回答は，120枚の画像のうち82人のターカーから得られたものである

■120枚の画像データを用いて，実際の評価条件をシミュレーションした

・120枚の画像を2つのセットに：

1．アーティストからのラベルがあると仮定した「見たことがある seen」セット

2．アーティストからのラベルが得られないと仮定した「見たことがない unseen」セット

・120枚の画像を60%-40%の割合でランダムにこの2つのセットに分けた

■評価手順は以下の通り

・「見たことがある」セットから、各ターカーの「いいね！」という回答と、アーティストの「いいね！」という多数決との間のコーヘンのカッパ（類似性の尺度）を計算する

・アーティストと最も乖離しているターカーを「未見」セットから除外するために、コーエンのカッパの閾値を選択する

結果

・コーエンのカッパを用いて、「見たことがある」画像群の中でアーティストと最も乖離しているターカーを除外すると、「見たことがない」画像群の中でアーティストによる多数決を行った際のターカーの総合的なパフォーマンスが向上する

・これは、AIが生成したアートワークの評価を行う際に、アーティストの乏しいラベルを補完するために、豊富なターカーのラベルを利用できることを意味している。図1のグラフから、フィルタリングによるCohen's Kappaの増加量の観点から、「見たことのある」60%セットからは0.2が最適な閾値であることがわかる

・また、「見たことのない」40%のセットでも、0.2が最適な閾値であることがわかる

・機械によって生成された最高の画像は、人間が作成した第3位の作品と同等であり、どちらもアーティストの75%の投票を獲得している

■単純な線形分類法を用いて、テスト画像の好感度を予測する能力を調べた

・この目的を達成するために、ImageNet 2で事前に学習されたVGG-16ニューラルネットワークが提供する意味的に豊かな特徴空間を利用

・このネットワークを用いて、120枚の画像を4096次元の空間に埋め込み（最後の（fc7）層を使用）、この空間で2値の「好き嫌い」の問題について線形SVMを学習

・学習データにはMTurkのラベルを使用：つまり、好感度に肯定的なスコア（4-5）をつけた人が大多数（5人中4人）であれば、画像は肯定的な例として扱われ、否定的なスコア（1-3）をつけた人は否定的な例として扱わる

・これらの条件は70.8%のデータで成立し、SVMは10回のクロスバリデーションで78.2%±0.4%のテスト精度を達成

▶これは、創造的な芸術における人間の好みのいくつかの側面が共有され、学習可能であることを示す、心強い（統計的に有意な）結果

結論

・全体として、MTurkを使って、見たことのない画像に対する好感度に関するアーティストの回答を評価することは、実行可能なアプローチであることを示した

・また、我々のネットワークが作成した新しいアート作品の好感度についても有望な結果を示し、アート作品の好感度は学習可能であるという予備的な結果を示した

同じようなことをしている（したいはずなのに）他分野のPaper意味わからなすぎた…

論文

Coleman, L., Achlioptas, P., Elhoseiny, M. (2019). Towards a principled evaluation of likeability for machine-generated art. 32nd Conference on Neural Information Processing Systems (NeurIPS 2019), Montreal, Canada. https://repository.kaust.edu.sa/handle/10754/662646