stMind

about Arsenal, Arsene Wenger, Tech, Computer vision and Machine learning

SSDとCRNNで簡易OCR

画像から文字列を認識するOCRシステムを、SSDとCRNNで。

github.com

最初に、SSDで文字列領域を矩形として抽出、矩形領域に対してCRNNで文字列を出力する構成です。

SSDはTensorflow Object Detection APIで、COCOだけでは十分な精度が出なかったので、SynthTextとCOCOを使って自前学習、CRNNはPytorchで実装されているモデルを利用しました。(学習は、EC2のP2インスタンスで約1.5日かかりました)

検出のSSDモデルは傾きとスケール変化には弱かったり、CRNNはアルファベットのみの学習モデルで記号は認識できない等の制約がありますが、簡易的なOCRであれば簡単に作れそうです。