stMind

about Tech, Computer vision and Machine learning

画像キャプション（im2txt）

色々と参考にしながら、画像キャプションのモデルを学習、テストした。

im2txtはtensorflowのリポジトリに含まれる画像キャプションのモデル
encoder-decoder系のアーキテクチャで、画像をエンコードした固定長ベクトルを入力し、自然言語のキャプションにデコードする構成
ya_im2txtではエンコーダーとしてInceptionV3、デコーダーはLSTMで単語のベクトル表現はGloveを使用
画像をうまく説明するキャプションが生成される一方で、失敗も多い。また、vocabularyを制限しているので表現力は低い（同じようなキャプションが生成されることが多い）

f:id:satojkovic:20190929174019p:plain f:id:satojkovic:20190929174028p:plain