激what are you talking about状態

バーニングめいぽおじさん

カニかかかかかか

前回の続き

参考:tesseract-ocr : リード開発メモ
上記をページを参考にして、実際に自分でテストデータを使って学習後・識別をさせてみました。

引っかかった点としては. font_propertiesの中身の文字列をフォント名と一致させる必要がないと思って適当に付けてしまったせいで実行できなかった一点位でした。

学習後の結果は以下

f:id:matayoro:20171001004320p:plain

良くなっているように思えるけど、元々の日本語教師データを上書きして作った記憶がないので、文字抽出後、「カ」「ニ」「か」「っ」「て」「こ」「い」「よ」の八種類の文字から選択してるだけっぽい。