激what are you talking about状態

バーニングめいぽおじさん

形態素解析

 

 

twitter.com

このTwitterを対象にJanomeを使って形態素解析

直近3233ツイートを対象に解析

コードは以下のページを参考にほぼそのまま使いました。

http://ailaby.com/janome/

解析結果は以下

 

2017 3233
+ 3201
0000 3198
@ 964
_ 793
Jun 625
Aug 544
Fri 514
teikoku 496
Thu 493
Sat 488
. 488
t 485
16 479
/ 471
Sun 471
https 461
15 455
:// 452
Wed 449
co 441
13 437
03 424
14 417
Sep 414
Tue 403
07 400
Jul 396
12 395
10 389
17 385
Mon 380
18 374
04 367
06 364
11 363
May 363
05 362
02 358
hisoka 353

 

上位はこんな時間値が鬱陶しいので削除、右カラムが出現回数

result_ranking[row][0].isdigit():でtrueで読み飛ばすようにしました

: 6563
+ 3201
@ 964
_ 793
Jun 625
Aug 544
Fri 514
teikoku 496
Thu 493
Sat 488
. 488
t 485
/ 471
Sun 471
https 461
:// 452
Wed 449
co 441
Sep 414
Tue 403
Jul 396
Mon 380
May 363
hisoka 353
Mar 337
Oct 270
Apr 249
@_ 230
iwakkk 230

 

それで上位がこんな感じ

 

中位はコンな感じ

93
90
85
今日 80
明日 73
70
こと 67
on 67
- 63
by 61
そう 60
np 60
SoundCloud 59
これ 57
時間 55
54
u 54
51
PENDUAL 51
やつ 51
neru 46
to 45
' 44
Listen 44
ワロタ 43
39
マジ 39
39
カード 37
好き 34
仕事 33
みたい 32
32
31
31
31
30
大会 30
30
29
普通 26
d 26
遊戯 26
休み 25
なに 25
ツイート 25
すぎ 25
C 24
23
shadowverse 23
最近 23
jp 22
len 22
kuro 22
オタク 22
21
感じ 21
なん 21
漏れ 21
一生 21
ゲーム 21
久しぶり 21
写真 21
21
love 21
21
Crelon 21
koupaku 21
poke 21
20
& 20
20
キャンペーン 20
シャドバ 20

 

金曜日にツイート数が多いらしい

あとは15%ぐらい@teikokuツイートをしている

形態素解析後なんか遊べたらいいんですけど、またそれは後日考えます

jupyter LAN内リモート接続

 


IPython notebookをリモート接続する - Qiita

こちらを参考に設定

実際にこの通りに行うと同LAN内から接続成功

 

今後はjupyter notebookコマンドだけだけでOK

 

 

 

f:id:matayoro:20171009200921p:plain

 

 

携帯からはこんな感じ

f:id:matayoro:20171009201629p:plain

 

目的を果たせるのかはわからないけど、さらにラズパイをVPNサーバー化します

Raspberry Piで安く手軽に自宅用VPNサーバーを作る方法 - WPJ

ラズパイ3 購入

ラズパイ3購入→noobsでインストール

目的はjupyterのサーバーとしてlinuxOSを使用したかったため。

 

ラズパイも触ったことがなければDebianディストリビューションも使ったことがないので、目的を果たせるかは謎。

 

購入したラズパイ

https://www.amazon.co.jp/gp/product/B01CSFZ4JG/

マイクロSD

https://www.amazon.co.jp/gp/product/B01MDRO8X8/

充電器

https://www.amazon.co.jp/gp/product/B01N8ZIJL8/

 

メモリ1G、Bluetooth無線LAN内臓のものを5000円で買える時代か

 

f:id:matayoro:20171009175332j:plain

キーボード、マウス、HDMI、LANケーブル、sdカード接続図

 

 

 

f:id:matayoro:20171009175308j:plain

Noobsで簡単インストール。一回画面が付かなくて焦ったけどsdカード直下にnoobsのファイルを置かずに、解凍時時のnoobsフォルダのまま突っ込んだせいでした。

 

 

その後ラズパイにpipを使ってjupyterをインストール

その後ラズパイ側での操作が億劫になったので、windows側でteratermを使って操作。会社でしかteratermを使ったことがなかったけれど、

ラズパイ側のsshを有効にしてwindows側でラズパイのIP打ち込んだら入れました。

メモとして初期ユーザー名がpi、パスワードがraspberry

f:id:matayoro:20171009191233p:plain

ラズパイ側の画面はコンな感じ

 

 

f:id:matayoro:20171009183658p:plain

その後パスワードを変えて環境構築完了

 

 

ここからラズパイをpython用のサーバーとして外部クライアントから動くようにしていきたい。

 

とりあえずLAN内から接続できるようにして後々WANからも遊べるように頑張る。

 

 

カニかかかかかか

前回の続き

参考:tesseract-ocr : リード開発メモ
上記をページを参考にして、実際に自分でテストデータを使って学習後・識別をさせてみました。

引っかかった点としては. font_propertiesの中身の文字列をフォント名と一致させる必要がないと思って適当に付けてしまったせいで実行できなかった一点位でした。

学習後の結果は以下

f:id:matayoro:20171001004320p:plain

良くなっているように思えるけど、元々の日本語教師データを上書きして作った記憶がないので、文字抽出後、「カ」「ニ」「か」「っ」「て」「こ」「い」「よ」の八種類の文字から選択してるだけっぽい。

pythonを使って文字を認識させたい

前回pythonを使ってSSを撮ったりしてたので、そこで撮ったSSから日本語に出力できないかな~と思い色々模索。
取っ付きやすそうなtesseract-ocrをダウンロードしてきて実行

日本語OCRのtesseract-ocrを使ってやってみた | JProgramer
こちらを参考に環境は構築しました。

実行環境は
windows7 python3.6.1



とりあえず以下の画像をtesseract-ocrを用いて文字に起こしてみます
f:id:matayoro:20170930203859p:plain

コードと結果は以下

# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image

file = 'C:\\Program Files (x86)\\Tesseract-OCR\\10848294_953414121353415_1982377743_a.jpg'
img = Image.open(file)
str = pytesseract.image_to_string(img, lang="jpn")
print (str)


hi煉

カ動丶カ丶カ丶つ て こし`よ

BoxFileEditorを使ってみてみるとこんな感じ
本当はjTessBoxEditorを使いたかったんだけど、マルチバイト文字に対応させるのが自分には無理だったので諦めました。

f:id:matayoro:20170930231237j:plain

確かに近い文字に認識してくれているんだけど、意味合い的には程遠いものになってしまった。
配布されているデータセットを用いての認識だったので、次は自分で学習データを作って利用してみたい
参考:Tesseract-OCRの学習(識字率をあげる) - wiki - PCスキルの小技・忘却防止メモ

ORACLE12g 環境構築

勉強用のデータベース構築のために前日ダウンロードまでは済ませたので、今日はインストールとユーザーの作成

 

勉強用の教材には

ORACLE MASTER Bronze完全詳解+精選問題集を使用。

こちらでデータベースとユーザー作成のsqlが配布されているので、そちらを利用。

 

<インストール>

詳細は割愛、躓いた部分として、2個目のファイル(winx64_12102_database_2of2)のComponents下のフォルダ類を1個目のファイルのComponents下(winx64_12102_database_1of2)に移してからsetupをしなければならないのに、忘れて実行していたこと。

 

<データベース接続、ユーザー・テーブル作成>

ORACLE MASTER Bronze完全詳解+精選問題集で配布されているsqlを実行したところ

ORA-65096 エラーが発生。

詳細を見てみるとユーザー作成段階で怒られている

原因としては12cからは親DB(CDB)に繋がってしまうようになっていて、実際に操作するPDBに操作しないといけないことが原因らしかった。

f:id:matayoro:20170918202706p:plain

 

対応として接続を

alter session set container = PDB

で変更してからユーザーを作成する必要らしい。

またログインの際にはPDBに変更していても

 

sqlplus ユーザー名/パスワード@pdb

conn ユーザー名/パスワード@pdb

のように@を使ってリスナーを経由して接続することを名義しないと接続が失われてしまった。

 

上記でやっとログインができるかと思いきや

お次はORA12154 エラー

原因を調べてみるとtnsnames.oraにPDB名が追加されていないのが問題だった。

ORACLEインストール先\product\12.1.0\dbhome_1\NETWORK\ADMIN\tnsnames.ora

 

PDB名=
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = localhost)(PORT = 1521))
(CONNECT_DATA =
(SERVER = DEDICATED)
(SERVICE_NAME = pdborcl)
)
)

を追記

 

これでやっとログイン。

 

配布sqlのCREATETABLE以下をコピペしてテーブルも無事作成(先頭にSPOOL)だけつけました。

 

select * from tabでちゃんと実行できたか確認

f:id:matayoro:20170918211634p:plain

大丈夫っぽい

 

<メモ>

Col 列名 format a(byte数)

set linesize (byte数)