色々と参考にしながら、画像キャプションのモデルを学習、テストした。
- im2txtはtensorflowのリポジトリに含まれる画像キャプションのモデル
- encoder-decoder系のアーキテクチャで、画像をエンコードした固定長ベクトルを入力し、自然言語のキャプションにデコードする構成
- ya_im2txtではエンコーダーとしてInceptionV3、デコーダーはLSTMで単語のベクトル表現はGloveを使用
- 画像をうまく説明するキャプションが生成される一方で、失敗も多い。また、vocabularyを制限しているので表現力は低い(同じようなキャプションが生成されることが多い)