激what are you talking about状態

バーニングめいぽおじさん

pythonを使って文字を認識させたい

前回pythonを使ってSSを撮ったりしてたので、そこで撮ったSSから日本語に出力できないかな~と思い色々模索。
取っ付きやすそうなtesseract-ocrをダウンロードしてきて実行

日本語OCRのtesseract-ocrを使ってやってみた | JProgramer
こちらを参考に環境は構築しました。

実行環境は
windows7 python3.6.1



とりあえず以下の画像をtesseract-ocrを用いて文字に起こしてみます
f:id:matayoro:20170930203859p:plain

コードと結果は以下

# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image

file = 'C:\\Program Files (x86)\\Tesseract-OCR\\10848294_953414121353415_1982377743_a.jpg'
img = Image.open(file)
str = pytesseract.image_to_string(img, lang="jpn")
print (str)


hi煉

カ動丶カ丶カ丶つ て こし`よ

BoxFileEditorを使ってみてみるとこんな感じ
本当はjTessBoxEditorを使いたかったんだけど、マルチバイト文字に対応させるのが自分には無理だったので諦めました。

f:id:matayoro:20170930231237j:plain

確かに近い文字に認識してくれているんだけど、意味合い的には程遠いものになってしまった。
配布されているデータセットを用いての認識だったので、次は自分で学習データを作って利用してみたい
参考:Tesseract-OCRの学習(識字率をあげる) - wiki - PCスキルの小技・忘却防止メモ