2024-08-15から1日間の記事一覧

BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し

この論文では、事前学習済みの画像エンコーダーと大規模言語モデルを利用し、軽量なQuerying Transformer（Q-former）で視覚と言語のモダリティギャップを埋める、汎用的で効率的な新しい事前学習戦略であるBLIP-2を提案しています。 BLIP-2は、既存手法よ…