2017年なので少し前になりますが、画像から料理名を推定するプロジェクト。
InceptionV3のImageNet pre-trainedのモデルをFine tuningして、Food 101データセットで82.03% @ Top-1の精度が出たようです。
Food 101は、名前の通り101クラスで、各クラス1000画像含まれているので、メモリ上に展開すると80GB程度になるらしい。96GBのメモリを積んだマシンを使ったらしいが、これは富豪アプローチですね...
Data augmentationは、KerasのImageDataGeneratorで、 rotation_range、width_shift_range、height_shift_range、horizontal_flip、zoom_range、channel_shift_rangeあたりが使われてます。
学習は初期トライアルではAdamやAdaGradで試してたが、最終的にはSGDで学習。
ここから精度を上げるのは反復トライアルが必要な難しいタスクになりそうですが、スタート地点のBaselineとして使える気がします。