カニかかかかかか
前回の続き
参考:tesseract-ocr : リード開発メモ
上記をページを参考にして、実際に自分でテストデータを使って学習後・識別をさせてみました。
引っかかった点としては. font_propertiesの中身の文字列をフォント名と一致させる必要がないと思って適当に付けてしまったせいで実行できなかった一点位でした。
学習後の結果は以下
良くなっているように思えるけど、元々の日本語教師データを上書きして作った記憶がないので、文字抽出後、「カ」「ニ」「か」「っ」「て」「こ」「い」「よ」の八種類の文字から選択してるだけっぽい。