マルチメディア作品の分析とマルチメディアにおける魅力的なコンピューティングに関する調査（Chu et al., 2019）

f:id:jin428:20210523163733j:plain

みなさんこんにちは！

微かに混じり合う教育と心理学とアートを考えていますじんぺーです。

今日も論文を読んでいきます。

www.jinpe.biz

マルチメディア作品の分析とマルチメディアにおける魅力的なコンピューティングに関する調査（Chu et al., 2019）

はじめに

■絵画や彫刻などの古典的な芸術作品に加えて、ソーシャルプラットフォームやメディアキャプチャデバイス、DNN（Deep Neural Network）などのメディア処理ツールの進化により、新しいタイプの芸術作品が登場している

・近年のバーチャルリアリティ（VR）や拡張現実（AR）技術の進歩は、3Dコンテンツの閲覧やインタラクションに様々な新しい可能性をもたらす

・アマチュアアーティストがVRを使って自分の3D作品を共有したいと思うだけでなく、Oculus Story StudioやIndustrial Light & Magicなどの企業も、斬新で没入感のある映画体験のためにVRの可能性を追求

・消費者がどのようにしてこのようなマルチメディアベースの芸術作品に魅了されるのかを分析することも重要な課題

マルチメディア作品の分析

■スタイル変換

・イメージ・スタイル・トランスファーの分野は、畳み込みニューラルネットワーク（CNN）のテクスチャー合成の威力が紹介されて以来、急速に発展してきた

・Gatysらは、CNNの特徴マップ間の相関関係が絵画の質感情報をよく表すことを発見した

この先駆的な研究では、写真から画像を合成するネットワークを開発し、与えられた写真の視覚的内容を維持したまま、合成された画像が対象となる絵画に類似したテクスチャ特性を持つようにした

・一方、Johnsonらは、出力画像と基底画像の間のピクセル単位の損失に対して、知覚的な損失関数を用いて、より効率的な変換ネットワークを提案

・その後，画像スタイル転送の基本的なネットワーク構造が開発され，動画への適用，セマンティクスを考慮した転送，携帯電話でのリアルタイム転送など，多くの拡張研究が行われている

■コミックとマンガ

・豊かな表現力と異文化性を持つコミックの分析は、近年台頭してきた

・紙の書籍市場は低迷していますが、日本のコミックス市場は過去最高の売上を続けている

・コミックス分析に関する既存の研究の多くは，顔検出，吹き出し検出，コマ境界検出，テキスト検出など，物体検出に焦点を当てている

・Chu and Liは，まず選択的探索法によって物体領域を検出し，さらに各領域がマンガの顔であるかどうかを検証した

・検証をより正確に行うために、グローバルな情報（領域全体）とローカルな情報（領域内の複数の部分）を融合

・Rigaud et al.は，マンガのドメイン知識を統合し，マンガの吹き出しを検出するために，アクティブコンターフレームワークにおける新しいエネルギー項を提案

・Pang et al.は，マンガのコマを抽出するために，連結成分ラベリングを用いてコマのブロックを見つけ，再帰的に分割線を決定、そして、分割線に基づいて正確なコマの形状を復元

・Chu and Yuは，Faster R-CNN フレームワークをマンガのテキスト検出に改良した

絵画

■芸術家や美術史家が独自に行っていた絵画の解析や制作にも、深層学習技術が導入

・この分野の代表的な出来事として、2018年にオークションで43万2,500米ドルで落札されたAI生成の絵画が挙げられる

・Karayevらは、画像のスタイルを認識する際に、深層特徴が従来の手作業による特徴よりもはるかに優れた性能をもたらすことを最初に示した

・Folegoらは、絵画の重ならないパッチからCNN特徴量を抽出し、異なるパッチの分類結果を融合させて、ゴッホの絵画かどうかを判定

・Elgammalらは、リカレントニューラルネットワークを用いてストロークの特徴を定量化し、絵の分類と偽物の検出を実現した

・アンケートに参加した人の4分の3は、創造的逆説ネットワーク26)で作られた絵画は人間が作ったものだと信じていた

マルチメディアコンテンツの美的感覚

■分類問題として美的品質評価を定式化したアプローチは、美的に好ましい画像と不快な画像を区別する

・Datta et al.は、直感に基づいて各画像に56の視覚的特徴を設計：カラフルさ、明るさ、彩度、色相などの視覚的な手がかりのほかに、ウェーブレットベースのテクスチャ、サイズとアスペクト比、形状の凸凹、被写界深度の低さなどに関する特徴を考慮し、統計モデルを学習させて、画像の美的品質の良し悪しを自動的に分類

・Ke et al.は、高周波エッジの空間分布、色分布、色相カウント、ぼかしなどを記述する高レベルセマンティック特徴を用いて分類タスクを行った

・Dhar et al.は、画像の美しさや画像の面白さを予測するために、画像の構成、画像の内容、画像の自然な照明条件などに関連する、人間が知覚する異なるタイプの高レベル画像属性を提案

・Nishiyama et al.は、画像の複雑な色分布に対処するために、カラーハーモニーとカラーパターンのバッグに基づいたアプローチを提案

・従来の手作業で設計された特徴量よりも優れている可能性がある。

■近年では画像の美観予測のためにいくつかのディープCNNが提案

・Lu et al.は、スタイル属性とセマンティック属性を用いた美的分類を改善するために、ダブルカラムCNNを提案：画像のグローバルな特性とローカルな特性の両方を捉えるために、画像のグローバルビューとローカルビューという2つの異質な入力が両方のカラムに与えられている

・最近では、Murrayらが、（分布予測タスクのためだけに学習された）1つのディープCNNモデルだけを使って、美的品質分類、美的スコア回帰、美的スコア分布予測という3種類のタスクを解決できることを示した

・Royらは、画像に含まれる視覚的内容に応じた推論情報の利用を提案し、最先端に近い性能を示した

■画像の美学分析に比べて、動画の研究は非常に限られている

・Yeh et al.は，写真に基づく視覚的手がかりと動きに基づく視覚的手がかりの両方を組み合わせて，動画の各フレームの美的特徴を抽出した

・彼らは、オプティカルフローと顕著な領域抽出から作られた新しいモーションベースの特徴を導入し、美的価値の推定を強化する効果を示した

・Niuらは、プロのビデオがどのように作成されるかを議論し、それに対応して、プロとアマチュアのビデオを区別する様々な手作りの特徴を設計した

・Redi et al.は、ソーシャルネットワークサービス（SNS）の動画がクリエイティブであるための特徴を考察し、クリエイティブなコンテンツの自動検出を行った

■芸術と技術はこれまで以上に密接になることが予想される

・それに伴い、機械学習技術を用いて、そのようなマルチメディアアートの品質を評価・予測することが重要になってくる

・それは、広告やマーケティングなどの産業において重要になる可能性があり、また、アート作品にどのように感動したり、影響を受けたりするのかを理解するのにも役立つだろう

絵画や漫画、SNS投稿などの魅力度を計算する技術のレビュー、今求めていたものではなかった…

論文

Chu, W. T., Motomura, H., Tsumura, N., & Yamasaki, T. (2019). A survey on multimedia artworks analysis and attractiveness computing in multimedia. ITE Transactions on Media Technology and Applications, 7(2), 60–67. https://doi.org/10.3169/mta.7.60