Vision and Language | 複合知能メディア研究室

Vision and Language

深層学習の登場以来、Vision and Language、つまり視覚と自然言語を扱う研究は、コンピュータビジョン分野や自然言語処理分野における中心的なトピックの一つとなりました。画像や映像の意味を理解することと、それらを自然言語で表現できることは、強い関連があると考えられます。以下では、当研究室での取り組みの一例を紹介します（一部、ChatGPTによる日本語訳です）。

Explain Me the Painting: 絵画の説明文生成

絵画を見て、「この作品にはどんな物語があるのだろう？」と思ったことはありますか？本研究では、芸術作品に対する理解を深め、芸術を人々により身近なものとするために、美術絵画に対する説明文を生成する枠組みを提案します。現在の人工知能技術をもってしても、芸術作品に対して情報量の多い説明を生成することは困難です。というのも、そのためには作品のスタイル、内容、構図など複数の側面を理解して記述し、さらに画家やその影響、また歴史的背景に関する知識も付け加える必要があるからです。

本研究ではマルチトピックかつ知識に基づいたフレームワークを導入します。このフレームワークでは、生成される文章を3つの芸術的トピックに沿って構成し、さらに外部知識を活用して各説明を強化します。本フレームワークは、定量的および定性的な評価、さらに人間による比較評価において、トピックの多様性および情報の正確性の両面で優れた結果を示しました。

詳細とコードはこちらのページからご確認ください。

部分映像検索の性能評価における表層的相関の問題

自然言語クエリによる部分映像検索とは、映像の中からクエリに対応する部分映像を特定・抽出するタスクです。自然言語と映像の両方の意味を理解する必要があるため、非常に難易度の高いタスクだと言えます。他の多くのコンピュータビジョンや機械学習の分野の様々なタスクと同様に、部分映像検索の進展はベンチマークデータセットに支えられており、それゆえにデータセットの質がこのタスクに取り組む研究コミュニティ全体に大きな影響を与えます。

部分映像検索タスクにおいては（他のタスクと同様に）様々なモデルが提案され、ベンチマークのランキングがどんどん更新されてきました。本研究では、このベンチマークの結果が、実際のモデルの性能をどれだけ正確に反映しているかを実験的に示しています。もしベンチマークがモデルを正しく評価できていないとすれば、大きな問題です。実験結果からは、広く使われるベンチマークデータセットには大きなバイアスが内包されていること、さらに当時の最新モデルはこのバイアスを利用していることが疑われる挙動が明らかになりました。

加えて、本研究では新たなサニティチェック（妥当性確認）実験や、結果を視覚的に理解するためのアプローチも提案するとともに、部分映像検索の評価方法を改善するための方向性についても提案します。

詳細とコードはこちらのページからご確認ください。

絵画に関する質問応答のためのデータセット

芸術作品（絵画）に関する質問に答えることは人工知能にとって困難な課題です。なぜなら、多くの場合、絵画について何か質問するときは、そこに描かれた視覚的な情報だけでなく、美術史の学習を通じて得られるその絵画に関するコンテキストの理解が求められるからです。

本研究では、芸術に関する質問応答のための新たなデータセットの構築に向けた初の試みとして、AQUA (Art QUestion Answering) というデータセットを紹介します。このデータセットの質問応答（QA）ペアは、既存の美術理解データセットに含まれる絵画とコメントに基づき、最先端の質問生成技術を用いて自動生成されます。生成されたQAペアは、文法の正確さ、質問への回答可能性、そして生成された回答の正しさを基準として、クラウドソーシングによってクレンジングされており、高品質なデータセットとなっています。本データセットは視覚的（絵画に基づく）質問と知識的（コメントに基づく）質問の両方を含んでいます。

さらに、視覚的質問と知識的質問をそれぞれ独立に処理するベースラインモデルも提案しています。本研究では、このベースラインモデルを画像に関する質問応答分野の最先端モデルと比較し、芸術分野における質問応答の課題や今後の可能性について包括的に検討しました。

Last updated on Oct 24, 2023

← 説明可能なAI Mar 1, 2025