stMind

about Arsenal, Arsene Wenger, Tech, Computer vision and Machine learning

flickr8k dataset

Deep Visual-Semantic Alignments for Generating Image Descriptions

image caption用のflickr8k datasetは、アノテーションとVGGの特徴量は上記リンクからダウンロード可能ですが、対応する画像自体は別途ダウンロードする必要があります。各画像のダウンロード先URLをFlickr Services: Flickr API: flickr.photos.getSizesを使って取得して、バッチ的に取得するスクリプトを書きました。8k枚の画像をダウンロードするので、すごい時間がかかるのが難点ですが...

github.com