動植物のためのコンピュータビジョン
動植物を対象とするコンピュータビジョン技術の研究は、特に自然界に特有の複雑な形状、多様な見た目、柔軟な変形、そして観測条件のばらつきなどに向き合う必要があります。私たちは、植物の個体・葉・枝構造の理解から、動物の画像・音声・テキストを統合した認識まで、自然を対象とした視覚情報処理の基盤技術から実応用に至るまで、幅広く探究しています。具体的には、植物の個体分割や構造の推定、さらには動物のマルチモーダル表現学習や動作解析などに取り組んでいます。これらの研究は、コンピュータビジョンの新しい課題を切り拓くだけでなく、農業、生態学、生物学における実問題の解決にもつながります。
BioVITA: 動物種理解のための大規模マルチモーダルデータセット・モデル
画像・テキスト・音声といった複数の種類のデータを使って動物の種を理解することは、コンピュータビジョンと生態学の境界にある新しい課題です。近年、BioCLIPのようなモデルによって、画像と分類学的なテキスト情報の対応づけはうまくできるようになってきましたが、音声をうまく組み込むことはまだ十分に解決されていません。 本研究では、生物データに特化した新しい統合フレームワーク「BioVITA」を提案します。BioVITAは、(1)学習用データセット、(2)表現モデル、(3)検索ベンチマークの3つから構成されます。 まず、130万件の音声と230万枚の画像からなる大規模データセットを構築し、14,133種に対して34種類の生態的特徴ラベルを付与しました。次に、BioCLIP2をベースとして、音声・画像・テキストの表現をうまく揃えるための2段階の学習方法を提案します。さらに、3つのモダリティ間(画像・音声・テキスト)のあらゆる組み合わせで検索を行うベンチマークを作成し、分類階層として科・属・種の3レベルで評価できるようにしました。 実験の結果、本手法は分類情報にとどまらず、種の意味的な特徴まで捉えた統一的な表現を学習できることが分かりました。これにより、生物多様性の理解に向けたマルチモーダル解析をさらに前進させることが期待されます。
コードはこちら。

ZeroPlantSeg: ゼロショット植物セグメンテーション
近年のセグメンテーションモデルは、学習なし(ゼロショット)でも、上から撮影した作物画像から葉をある程度うまく切り出すことができます。しかし、複数の葉が重なり合って構成される「植物全体」を分割するのは依然として難しい問題です。このような問題は「階層的セグメンテーション」と呼ばれ、通常は種ごとにアノテーションされた大量の学習データが必要であり、人手の負担も大きいです。 本研究では、この問題に対して、上から撮影したロゼット型植物を対象としたゼロショット手法「ZeroPlantSeg」を提案します。本手法では、葉の領域を抽出する基盤モデルと、植物の構造を理解する視覚言語モデルを組み合わせることで、追加の学習なしに植物個体を抽出します。 複数の植物種や成長段階、撮影環境を含むデータセットで評価した結果、本手法は既存のゼロショット手法より高い性能を示し、さらに教師あり手法よりも異なる環境への適応性能に優れていることを確認しました。
コードはこちら。

NeuraLeaf: Neural Parametric Leaf Models
本研究では、農業やコンピュータグラフィックスにおいて重要となる植物のモデリングや再構成のために、葉の3次元形状を表現するニューラルなパラメトリックモデルを提案します。人や動物に対してはすでに多くの研究がありますが、植物の葉は形の多様さや柔軟な変形のため、扱いが難しいという特徴があります。 そこで本研究では、葉のための新しいモデル「NeuraLeaf」を提案します。葉は平らに広げるとおおよそ2次元の形として捉えられることに着目し、形状を「2次元の基本形」と「3次元の変形」に分けて表現します。この方法により、豊富に存在する2次元の葉画像データを活用して基本形を学習できるほか、形状に対応したテクスチャも同時に学習することができます。 さらに、葉の3次元的な変形を表現するために、骨格に依存しない新しいスキニングモデルを提案し、新たに3次元葉データセット「DeformLeaf」を構築しました。実験の結果、NeuraLeafは多様な形状や変形を持つ葉を生成でき、深度画像や点群といった3次元観測データにも高精度に適合できることを示しました。
コードはこちら。

TreeFormer: Plant Skeleton Estimation via Graph Generation
植物の枝分かれのような骨格構造を画像から正確に推定することは、スマート農業や植物科学にとって重要です。しかし、人間の骨格のように決まった構造を持つ場合と違い、植物はさまざまな形に枝分かれするため、画像からその構造を推定するのは難しい問題です。特に、画像から「木のような構造(ループのない枝構造)」を正しく推定することが課題となります。 近年の手法では、画像から細い構造をうまく推定できるようになってきましたが、その結果が必ずしも木構造になるとは限りません。そこで本研究では、木構造であることを保ちながら骨格を推定する手法「TreeFormer」を提案します。 本手法では、学習によるグラフ生成と、従来のグラフアルゴリズムを組み合わせています。具体的には、学習の途中で生成されたグラフを最小全域木(MST)に変換し、その情報を学習に反映させることで、不要なつながりを抑えながら最適化を行います。 実験の結果、本手法は、人工的な樹形データ、実際の植物の根、ブドウの枝など、さまざまな対象に対して正確に骨格構造を推定できることを確認しました。
コードはこちら。
