画像や動画の生成と編集 | 複合知能メディア研究室

画像や動画の生成と編集

画像生成モデルの分布コントロール

Weng Ian Chan, Hiroaki Santo, Yasuyuki Matsushita, Fumio Okura, “Instance-wise distribution control of text-to-image diffusion models” Pattern Recognition 172*(C):112614, 2026

テキストから画像を生成する拡散モデルは、視覚タスクのための人工データを作る手段として広く使われるようになってきています。しかし、これらのモデルは大規模な学習データに含まれる偏りを引き継いでしまうことが多く、その結果、生成される画像の属性（例えば色や種類など）の分布が偏ってしまうことがあります。これまでにもこうした偏りを減らす研究は行われてきましたが、その多くは単一の物体を対象としており、複数の物体が含まれる画像において、それぞれの物体の属性をうまく制御することは難しいという問題がありました。そこで本研究では、事前学習された物体検出器と属性分類器を利用し、拡散モデルを微調整することで、画像内の各物体ごとに属性の分布を制御する方法を提案します。これにより、生成画像に含まれる物体の属性の割合を、ユーザが指定した分布に合わせて調整することが可能になります。さまざまな物体や属性を用いた実験により、本手法は指定した分布に沿った高品質な複数物体画像を生成できることが確認されました。この結果は、実世界のような多様な環境に対応した人工データを、大規模に作成するうえで有効であることを示しています。

最終更新 3月 30, 2026

三次元形状・構造・見た目の復元 3月 30, 2026 →