形態素解析
直近3233ツイートを対象に解析
コードは以下のページを参考にほぼそのまま使いました。
解析結果は以下
2017 | 3233 |
+ | 3201 |
0000 | 3198 |
@ | 964 |
_ | 793 |
Jun | 625 |
Aug | 544 |
Fri | 514 |
teikoku | 496 |
Thu | 493 |
Sat | 488 |
. | 488 |
t | 485 |
16 | 479 |
/ | 471 |
Sun | 471 |
https | 461 |
15 | 455 |
:// | 452 |
Wed | 449 |
co | 441 |
13 | 437 |
03 | 424 |
14 | 417 |
Sep | 414 |
Tue | 403 |
07 | 400 |
Jul | 396 |
12 | 395 |
10 | 389 |
17 | 385 |
Mon | 380 |
18 | 374 |
04 | 367 |
06 | 364 |
11 | 363 |
May | 363 |
05 | 362 |
02 | 358 |
hisoka | 353 |
上位はこんな時間値が鬱陶しいので削除、右カラムが出現回数
result_ranking[row][0].isdigit():でtrueで読み飛ばすようにしました
: | 6563 |
+ | 3201 |
@ | 964 |
_ | 793 |
Jun | 625 |
Aug | 544 |
Fri | 514 |
teikoku | 496 |
Thu | 493 |
Sat | 488 |
. | 488 |
t | 485 |
/ | 471 |
Sun | 471 |
https | 461 |
:// | 452 |
Wed | 449 |
co | 441 |
Sep | 414 |
Tue | 403 |
Jul | 396 |
Mon | 380 |
May | 363 |
hisoka | 353 |
Mar | 337 |
Oct | 270 |
Apr | 249 |
@_ | 230 |
iwakkk | 230 |
それで上位がこんな感じ
中位はコンな感じ
俺 | 93 |
日 | 90 |
時 | 85 |
今日 | 80 |
明日 | 73 |
人 | 70 |
こと | 67 |
on | 67 |
- | 63 |
by | 61 |
そう | 60 |
np | 60 |
SoundCloud | 59 |
これ | 57 |
時間 | 55 |
今 | 54 |
u | 54 |
ー | 51 |
PENDUAL | 51 |
やつ | 51 |
neru | 46 |
to | 45 |
' | 44 |
Listen | 44 |
ワロタ | 43 |
円 | 39 |
マジ | 39 |
中 | 39 |
カード | 37 |
好き | 34 |
仕事 | 33 |
みたい | 32 |
気 | 32 |
雨 | 31 |
前 | 31 |
方 | 31 |
月 | 30 |
大会 | 30 |
暇 | 30 |
王 | 29 |
普通 | 26 |
d | 26 |
遊戯 | 26 |
休み | 25 |
なに | 25 |
ツイート | 25 |
すぎ | 25 |
C | 24 |
゚ | 23 |
shadowverse | 23 |
最近 | 23 |
jp | 22 |
len | 22 |
kuro | 22 |
オタク | 22 |
目 | 21 |
感じ | 21 |
なん | 21 |
漏れ | 21 |
一生 | 21 |
ゲーム | 21 |
久しぶり | 21 |
写真 | 21 |
曲 | 21 |
love | 21 |
さ | 21 |
Crelon | 21 |
koupaku | 21 |
poke | 21 |
一 | 20 |
& | 20 |
枚 | 20 |
キャンペーン | 20 |
シャドバ | 20 |
金曜日にツイート数が多いらしい
あとは15%ぐらい@teikokuツイートをしている
形態素解析後なんか遊べたらいいんですけど、またそれは後日考えます
jupyter LAN内リモート接続
IPython notebookをリモート接続する - Qiita
こちらを参考に設定
実際にこの通りに行うと同LAN内から接続成功
今後はjupyter notebookコマンドだけだけでOK
携帯からはこんな感じ
目的を果たせるのかはわからないけど、さらにラズパイをVPNサーバー化します
ラズパイ3 購入
ラズパイ3購入→noobsでインストール
目的はjupyterのサーバーとしてlinuxOSを使用したかったため。
ラズパイも触ったことがなければDebian系ディストリビューションも使ったことがないので、目的を果たせるかは謎。
購入したラズパイ
https://www.amazon.co.jp/gp/product/B01CSFZ4JG/
マイクロSD
https://www.amazon.co.jp/gp/product/B01MDRO8X8/
充電器
https://www.amazon.co.jp/gp/product/B01N8ZIJL8/
メモリ1G、Bluetooth、無線LAN内臓のものを5000円で買える時代か
キーボード、マウス、HDMI、LANケーブル、sdカード接続図
Noobsで簡単インストール。一回画面が付かなくて焦ったけどsdカード直下にnoobsのファイルを置かずに、解凍時時のnoobsフォルダのまま突っ込んだせいでした。
その後ラズパイにpipを使ってjupyterをインストール
その後ラズパイ側での操作が億劫になったので、windows側でteratermを使って操作。会社でしかteratermを使ったことがなかったけれど、
ラズパイ側のsshを有効にしてwindows側でラズパイのIP打ち込んだら入れました。
メモとして初期ユーザー名がpi、パスワードがraspberry
ラズパイ側の画面はコンな感じ
その後パスワードを変えて環境構築完了
ここからラズパイをpython用のサーバーとして外部クライアントから動くようにしていきたい。
とりあえずLAN内から接続できるようにして後々WANからも遊べるように頑張る。
カニかかかかかか
前回の続き
参考:tesseract-ocr : リード開発メモ
上記をページを参考にして、実際に自分でテストデータを使って学習後・識別をさせてみました。
引っかかった点としては. font_propertiesの中身の文字列をフォント名と一致させる必要がないと思って適当に付けてしまったせいで実行できなかった一点位でした。
学習後の結果は以下
良くなっているように思えるけど、元々の日本語教師データを上書きして作った記憶がないので、文字抽出後、「カ」「ニ」「か」「っ」「て」「こ」「い」「よ」の八種類の文字から選択してるだけっぽい。
pythonを使って文字を認識させたい
前回pythonを使ってSSを撮ったりしてたので、そこで撮ったSSから日本語に出力できないかな~と思い色々模索。
取っ付きやすそうなtesseract-ocrをダウンロードしてきて実行
日本語OCRのtesseract-ocrを使ってやってみた | JProgramer
こちらを参考に環境は構築しました。
実行環境は
windows7 python3.6.1
とりあえず以下の画像をtesseract-ocrを用いて文字に起こしてみます
コードと結果は以下
# -*- coding: utf-8 -*- import pytesseract from PIL import Image file = 'C:\\Program Files (x86)\\Tesseract-OCR\\10848294_953414121353415_1982377743_a.jpg' img = Image.open(file) str = pytesseract.image_to_string(img, lang="jpn") print (str)
hi煉
カ動丶カ丶カ丶つ て こし`よ
BoxFileEditorを使ってみてみるとこんな感じ
本当はjTessBoxEditorを使いたかったんだけど、マルチバイト文字に対応させるのが自分には無理だったので諦めました。
確かに近い文字に認識してくれているんだけど、意味合い的には程遠いものになってしまった。
配布されているデータセットを用いての認識だったので、次は自分で学習データを作って利用してみたい
参考:Tesseract-OCRの学習(識字率をあげる) - wiki - PCスキルの小技・忘却防止メモ
ORACLE12g 環境構築
勉強用のデータベース構築のために前日ダウンロードまでは済ませたので、今日はインストールとユーザーの作成
勉強用の教材には
ORACLE MASTER Bronze完全詳解+精選問題集を使用。
こちらでデータベースとユーザー作成のsqlが配布されているので、そちらを利用。
<インストール>
詳細は割愛、躓いた部分として、2個目のファイル(winx64_12102_database_2of2)のComponents下のフォルダ類を1個目のファイルのComponents下(winx64_12102_database_1of2)に移してからsetupをしなければならないのに、忘れて実行していたこと。
<データベース接続、ユーザー・テーブル作成>
ORACLE MASTER Bronze完全詳解+精選問題集で配布されているsqlを実行したところ
ORA-65096 エラーが発生。
詳細を見てみるとユーザー作成段階で怒られている
原因としては12cからは親DB(CDB)に繋がってしまうようになっていて、実際に操作するPDBに操作しないといけないことが原因らしかった。
対応として接続を
alter session set container = PDB名
で変更してからユーザーを作成する必要らしい。
またログインの際にはPDBに変更していても
sqlplus ユーザー名/パスワード@pdb名
conn ユーザー名/パスワード@pdb名
のように@を使ってリスナーを経由して接続することを名義しないと接続が失われてしまった。
上記でやっとログインができるかと思いきや
お次はORA12154 エラー
原因を調べてみるとtnsnames.oraにPDB名が追加されていないのが問題だった。
ORACLEインストール先\product\12.1.0\dbhome_1\NETWORK\ADMIN\tnsnames.ora
に
PDB名=
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = localhost)(PORT = 1521))
(CONNECT_DATA =
(SERVER = DEDICATED)
(SERVICE_NAME = pdborcl)
)
)
を追記
これでやっとログイン。
配布sqlのCREATETABLE以下をコピペしてテーブルも無事作成(先頭にSPOOL)だけつけました。
select * from tabでちゃんと実行できたか確認
大丈夫っぽい
<メモ>
Col 列名 format a(byte数)
set linesize (byte数)