OCR用のデータセットでcoco-textがあります。約6万4千枚のCOCO2014の画像に対して、約24万のテキスト領域のバウンディングボックスがアノテーションデータとして提供される大規模なデータセットの一つです。
また、画像にテキストを重畳して作られたSynthTextというデータセットもあります。こちらは、8万枚の画像で、約800万のテキスト領域がある超大規模なデータセットです。ただ、残念ながら、現在はダウンロード出来ないようです。
coco-textの可視化
比較的検出の容易な画像から、矩形の傾きが大きかったり、目視でも認識できないようなサイズのテキスト領域も含む難易度の高いデータセットです。
SynthTextの可視化
SynthTextは、テキスト領域をうまく囲めてないアノテーションが結構あって、縦横比を見て事前処理する等の処理が必要そうです。
検出器の学習に使うにあたって
pre-trainedのSSDを使ってcoco-textで学習してみたけど、なかなか検出率が上がらなかった。また、SynthTextを追加したが、事前処理をやってなかったのもあって、検出率に変化はあまりなかった。
この二つのデータセットは最初に使うデータセットとしては少し扱いにくいと思われるので、もう少し小さいtotaltextやStreet View Text Datasetなどのデータセットを使うのが良い気がする。