pythonを使って文字を認識させたい
前回pythonを使ってSSを撮ったりしてたので、そこで撮ったSSから日本語に出力できないかな~と思い色々模索。
取っ付きやすそうなtesseract-ocrをダウンロードしてきて実行
日本語OCRのtesseract-ocrを使ってやってみた | JProgramer
こちらを参考に環境は構築しました。
実行環境は
windows7 python3.6.1
とりあえず以下の画像をtesseract-ocrを用いて文字に起こしてみます
コードと結果は以下
# -*- coding: utf-8 -*- import pytesseract from PIL import Image file = 'C:\\Program Files (x86)\\Tesseract-OCR\\10848294_953414121353415_1982377743_a.jpg' img = Image.open(file) str = pytesseract.image_to_string(img, lang="jpn") print (str)
hi煉
カ動丶カ丶カ丶つ て こし`よ
BoxFileEditorを使ってみてみるとこんな感じ
本当はjTessBoxEditorを使いたかったんだけど、マルチバイト文字に対応させるのが自分には無理だったので諦めました。
確かに近い文字に認識してくれているんだけど、意味合い的には程遠いものになってしまった。
配布されているデータセットを用いての認識だったので、次は自分で学習データを作って利用してみたい
参考:Tesseract-OCRの学習(識字率をあげる) - wiki - PCスキルの小技・忘却防止メモ