拡散モデルなどを使った画像や動画の生成が盛んに研究されているものの、まだまだやることがありそうです。
画像から対象物体の三次元形状や構造、写実的な見た目を復元します。
スマート農業や生命科学などに有益な、動植物のためのコンピュータビジョン技術を研究しています。
ニューラルネットワークは表層的相関を利用して目的タスクで高い精度を達成することがありますが、これはバイアスにつながります。
大規模言語モデルや大規模視覚言語モデルを利用してエージェントを作り、さまざまなアプリケーションを実現します。
ブラックボックスと言われるニューラルネットワークの説明可能性、もしくは解釈可能性を考える
視覚と自然言語を融合してより深い意味理解を目指す