Deep Visual-Semantic Alignments for Generating Image Descriptions
image caption用のflickr8k datasetは、アノテーションとVGGの特徴量は上記リンクからダウンロード可能ですが、対応する画像自体は別途ダウンロードする必要があります。各画像のダウンロード先URLをFlickr Services: Flickr API: flickr.photos.getSizesを使って取得して、バッチ的に取得するスクリプトを書きました。8k枚の画像をダウンロードするので、すごい時間がかかるのが難点ですが...