読者です 読者をやめる 読者になる 読者になる

【PC】juman++のインストールがうまくいかなかった話

昨日、Windows10 Insider Preview15025を導入した話を書きました。目的としては二つ。

  • juman++を動かしたい
  • Rからlinuxのコマンドを実行したい

そして、結果的にはRからjuman++を動かしてウハウハしたかったわけなのです。

wanko-sato.hatenablog.com


とりあえず昨日の段階でInsider PreviewのインストールとUbuntuが16.04になっていることの確認まではできたので、次はjuman++のインストールだー、と

  ∧_∧  +
 (0゜・∀・)   ワクワクテカテカ
 (0゜∪ ∪ +        
 と__)__) +

しておったわけです。

続きを読む

【PC】insider previewを入れてUbuntu16.04を試す

(みなさん・・・聞こえ・・ますか・・・・私はいま・・・・・・Windows10 Insider Preview・・・・・・・Build 15025から・・語りかけて・・・・いま・・す)

というわけで、PCにWindows10 Insider Previewを入れてみました。2017年2月4日段階での最新がBuild15025です。ほとんど使っていないHDDにパーティション切ってインストールしています。なんでこんなことをしたのか、その理由から語り起こしましょう。

続きを読む

【自然言語処理】知識の構造化に向けた第一歩としての構文解析

Rで係り受け解析をやって語と語の関係を有向グラフにしよう!

wanko-sato.hatenablog.com

と思い立ったはいいのですが、これが考え出すとなかなかやっかいでして。そもそもどういうレベルで語と語の「関係」を定義づければいいのか、が自分の中であいまいだったようです。なので、ここで改めて、きちんと考え直してみようと思います。
※今回はプログラミングの話はありません。

続きを読む

【統計】統計検定準一級を受けようと思う。

会社からの指令もあり、統計検定準一級を受けようと思います。

最初はBioS受講という話もあったのですが、先々、データアナリストまたはデータサイエンティスト的な立場におさまることを考えると、BioSよりは統計検定の方がよかろう、という話に落ち着いたのでした。てことを書いちゃうと業界がばれちゃうんだろうか・・・?
また、最初は統計検定一級受験を提示されたのですが、過去問を見て、さすがにここまでばりばりの数理統計まではいらんだろう、という意見もあり、かといって二級では簡単すぎる、というので準一級。で、準一級の過去問をみたらさすがにこれを全部電卓で計算するのは(手法が全部頭に入っているわけではないので)辛そう。なので、復習と自己研鑽がてら、ここらでしっかり勉強しなおしてみよう、と思い立ったのでした。

続きを読む

【R】日本語文章をtext2vecで分析にかける

RMeCabなしでも、system()関数でMeCabに直接アクセスしてRで形態素解析ができるのでした。
RMeCabにはいろいろ便利な関数が入っていて、N-gramができる、とか、DTMが作れる、とか便利といえば便利です。が、個人的にはちょっと微妙だと思っております。というのも、RMeCabのN-gramは複数のN-gramを同時にできない、つまり1-gram、2-gram、3-gramを同時に作ってそのままDTMに放り込む、ということができません。
たとえば、

「今日 は 雨 です」

分かち書きされた文は

1-gramの場合

  • 今日
  • です

2-gramの場合

  • 今日_は
  • は_雨
  • 雨_です

3-gramの場合

  • 今日_は_雨
  • は_雨_です

N-gramされます。残念なことにRMeCabの場合、1-gram、2-gram、3-gramの分割を同時にできず、3回の処理に分けなければなりません。

こいつぁ面倒だ。

ということで、他のパッケージで何とかできないか、と試してみたところ、text2vecパッケージを使えばうまくできたのでご報告。

続きを読む

【R】RMeCabを使わずにRでMeCabする方法

ノートPCを買ってやりたかったことのひとつに「日本語の係り受け解析」があります。日本語の係り受け解析器は、有名なところでCabochaKNPがあります。いずれもPythonバインディングが提供されており、Pythonから動作させることが可能です。

Pythonバインディングできればな。

偉大な先人たちがいるじゃないですか。
その記述に従ってやってみるじゃないですか。
できないじゃないですかやだー。

彼らはいうわけですよ。

「俺の環境では動いたよ」

orz...

かれこれ2週間くらいあれこれやってみたんですが、結局良い解決策は見つからず、根本的にやり方を変えよう、と思い立ったわけです。「全然うまくいかなかった記録」は近々記事にしようと思います。が、その前にうまくいったやり方をご紹介します。簡単に言えば、

  • MeCabをsystem()関数を使って実行し、結果をRで加工する

ことをやっています。「なんだそんだけかー」と思った方は以下、スルーしていただいて構いません。
とりあえずMeCabについてだけ書きますが、CabochaもjumanもKNPも同じです。ただし、KNPはちょっと特殊です。
今のところ、Rで日本語の係り受け解析ができるものはなさそう(RCabochaは開発中止になっているそうですし)なので、「Pythonバインディングがうまくいかない」「Pythonなんか大っ嫌いだ!」という方、お試しください。

続きを読む

ノートPC買った

ノートPC買いました。

購入したのはマウスコンピュータの"MB-K670SN-SH2-KK [Windows 10 搭載] (WEB購入限定モデル) "です。

そもそも、2年くらい前にMacProが壊れてしまいまして。でも、とりあえず当面使う用事がなかったので、スマホiPadで必要なことは済ませておりました。意外になんとかなるもんだなぁ、と思っていたのですが、仕事でRだのPythonだのを触るようになって、だんだんと「自前でもいろいろやりたい」という気持ちがムクムク湧いてきたのでした。ついでにいえば、会社のPCは管理者権限がないのであんなことやこんなことができない、という不満もありました。

なので、自前でPCを買おう、と思い立ったのです。要件は下記の通り。

続きを読む