stMind

about Tech, Computer vision and Machine learning

2024-08-15から1日間の記事一覧

BLIP-2の論文メモとゼロショットのimage-to-text生成のお試し

この論文では、事前学習済みの画像エンコーダーと大規模言語モデルを利用し、軽量なQuerying Transformer(Q-former)で視覚と言語のモダリティギャップを埋める、 汎用的で効率的な新しい事前学習戦略であるBLIP-2を提案しています。 BLIP-2は、既存手法よ…