stMind

about Tech, Computer vision and Machine learning

Chapter 3.2.2 of Efficient Deep Learning: Data Augmentation

複雑なタスクを解く大規模なモデルを教師あり学習するとき、モデルの汎化性能は学習データ量に影響される。 しかしながら、高品質なラベル付き学習データを入手するにはコストがかかるという問題がある。 このような課題に対し、既存のデータに様々な変換手法を用いてデータセットを水増しすることで、ラベル付きデータの不足を解消するData augmentationが広く用いられている。

画像タスクであれば、画像を回転したり(下図左)、二つのクラスの画像をミックスしたり(下図中央)、回転とミックスを組みわせる(下図右)などの方法が使われる。この時、回転だけの場合であれば画像変換前と同じクラスのラベルで、ミックスと組み合わせの場合はミックスする二つのクラスを重み付けして使用する。

f:id:satojkovic:20210724144622p:plain

NLPのタスクでは、ソースからターゲットへ翻訳するモデルと逆方向で翻訳するモデルを用いて、異なる入力文を生成するBack translationや、入力文の単語をランダムにゼロにするWord Dropoutなどが用いられる。

Data augmentationでは、どのような手法を用いるのかは事前に決めることが多いが、RLで適用する手法およびハイパーパラメータを学習するAutoAugmentや、さらに効率的な探索が可能なRandAugmentを用いて自動的に手法を決定することも行われる。(下の図は、RandAugmentの論文に記載されている精度の改善率の表)

f:id:satojkovic:20210724151647p:plain