これまでの視覚と言語の対応付けの研究では、ほとんどが画像全体を入力として行われてきたのに対して、 この論文では、出力された単語を画像のピクセルに対応づけて、fine-grainedな位置特定が出来る視覚言語モデルのPixelLLMを提案しています。
図1は、PixelLLMで可能なタスクを示しています。
image + textでテキストプロンプトに対応する矩形位置を出力したり、image + locationで矩形領域に対応するキャプションを生成したりすることができます。
PixelLLM architecture for pixel-aligned captioning
キャプショニングタスクに適応した場合のアーキテクチャ。 画像エンコーダーと、位置プロンプトエンコーダー(この場合は全画面が位置プロンプト)、位置プロンプトに応じた画像特徴抽出器が含まれる。得られた位置プロンプト条件付きの画像特徴と、オプションのテキストプロンプトを大規模言語モデルに入力し、自己回帰的に次の単語を予測する。また、MLP層を適用して、単語に対応する位置を出力する。
Training
学習は、Localized Narrativeデータセットを利用する。LNデータセットは、人間のアノテーターが、与えられた画像をナレーションした時のテキストと、ナレーション中の注意を表すマウス軌跡が含まれている。 キャプション出力についてはラベルスムージングしたCEロス、位置出力についてはL1 Regressionロスを用いている。は、キャプションの長さを表す。 言語モデルの重みは固定することも、LoRAで更新することも出来る(Ablation studyを行なっている)。
Qualitative results
一行目がキャプショニング、二行目がセグメンテーション、三行目が密な物体キャプショニングの結果。 二行目の右から2つ目の画像では、"Pigeon with white feathers"に対して奥の鳩のみがセグメンテーションされていて、モデルが説明テキストと画像位置をピクセル単位で対応づけている。また、三行目の左から二つ目、矩形領域に"two shelves on wall"とキャプション生成されており、空間的な位置を理解した生成もしている。
論文のプロジェクトページには、他の結果も載せられています。
まとめ
ピクセル単位で視覚と言語のアラインメントを行ない、多様な後続タスクに適用可能なアーキテクチャを提案したPixelLLMをまとめた。 テキストと画像の細かい位置での対応づけをLLMが理解できるようになると、条件に一致する画像ではなく、画像内の領域を特定して検索するなどが出来るようになっていきそう。また、PixelLLMでは静止画が対象であり、動画などの動的なシーンへ対応するように、時間的な変化を考慮した手法への拡張などは今後出てくるかもしれない。