stMind

about Tech, Computer vision and Machine learning

画像キャプション(im2txt)

github.com

色々と参考にしながら、画像キャプションのモデルを学習、テストした。

  • im2txtはtensorflowのリポジトリに含まれる画像キャプションのモデル
  • encoder-decoder系のアーキテクチャで、画像をエンコードした固定長ベクトルを入力し、自然言語のキャプションにデコードする構成
  • ya_im2txtではエンコーダーとしてInceptionV3、デコーダーはLSTMで単語のベクトル表現はGloveを使用
  • 画像をうまく説明するキャプションが生成される一方で、失敗も多い。また、vocabularyを制限しているので表現力は低い(同じようなキャプションが生成されることが多い)

f:id:satojkovic:20190929174019p:plainf:id:satojkovic:20190929174028p:plain