Deep Learningを動画に適用というのはこれから増えてくると思うし、問題を分類した上記ブログを借りて頭を整理しておくとよいなと思った。少し古いが参照論文リストもあるので、目を通すと良さそう。
Video Classification
- Image Classificationと同じ問題で、入力が動画となっただけ
- 最もシンプルなアプローチは、動画の各フレームに対してCNNなどで分類スコアを計算し、最後にフレーム全体のスコアに統合
- ただし、このアプローチでは時系列の情報は失われてしまう
- LSTMなどを用いて明示的に時系列な情報を用いる方式も提案されてきている
Activity Recognition
- Video Classificationの問題であるが、動画の中の、特に人の行動を認識する問題
- Deep Learningを用いた手法がホットな領域
- 手動設計の特徴を用いていた時代のDense Trajectoriesを改良した方式もある
Action Localization
- 動画の中でActionを検出する問題(Actionをしている開始フレームから終了フレームまで)