【Rで自然言語処理】Rからjuman++を動かし形態素解析の結果を受け取る on Windows10

いまから半年くらい前ですか。juman++をインストールしようとしてどうしてもうまくいかなかったのでした。 wanko-sato.hatenablog.com が、ここ最近ふと思いついてあれこれ試してみた結果・・・ついにうまくいきました!!!といっても、実際にやっているこ…

【Rで自然言語処理】単語の出現パターンをクラスタリングする。

前回、前々回とトピックモデルに関する話題を扱いました。 wanko-sato.hatenablog.com wanko-sato.hatenablog.com トピックモデルは嫌いじゃない、むしろ好きなんですが、結果の解釈が面倒なのと、やっぱり確率分布を使うため、結果にどこかふわっとした感じ…

【Rで自然言語処理】トピックモデルによる文書分類結果の妥当性を検証する。

前回、トピックモデルのLDAを用いて文書を分類し、その結果をjavascriptで可視化する、ということをやりました。 wanko-sato.hatenablog.com ただ、その結果が本当に妥当なのか、正直自信がありませんでした。一応は3Dプロットで、検索ワードと文書分類がほ…

【Rで自然言語処理】トピックモデルの階層構造をどうにか可視化したい。

もう7月ですね。 統計検定、終わっちゃいましたね。 結果云々を一切書いてないってことはお察しということで。 ※というか、6月末だと思い込んでいて、余裕ぶっこいていたら申し込みすらすっかり忘れていた、というオチです。はい、というわけで、今回はトピ…

【Rで機械学習】LSTM-RNNの予測結果を考察する。

前回、sinカーブを学習データとしたLSTM-RNNによる学習と予測の実験を行いました。wanko-sato.hatenablog.comその結果、比較的良好な予測結果が得られたわけなんですが、果たして本当にそれだけで満足して良いのだろうか?とふと疑問に思いました。というの…

【Rで機械学習】LSTM-RNNを仮想数列で実験してみる。

前からなんとなく気になっていたLSTM-RNN。 LSTM-RNN(Long short-term memory Recurrent Neural Network)とは・・・なんて話をしだすときりがないので、以下のリンク先をみてください。qiita.comqiita.com要は時系列データを学習するニューラルネットワー…

【Rで自然言語処理】Term-co-occurrence matrixから距離行列とグラフをつくる実験

前にこんな記事を書きました。wanko-sato.hatenablog.com構文解析の結果から語のつながりを抽出して意味あるいは概念のネットワークを構築しよう!というアイディアです。が、進んでいません。というのも。KNPの結果の解析がめんどくさい。というごくごくし…

【R】数字の集合をトピックモデルで分析したらなかなか良くてびっくりした話。

前回、疎行列をクラスタリングする話を書きました。wanko-sato.hatenablog.comそこでふと思いついたのが、「数字の羅列を単語の集合とみなして自然言語処理のスキームに当てはめられるんじゃね?」ということです。どういうことかというと、 [[1]] [1] 246 3…

【R】スパースな行列をクラスタリングする

R

仕事で「超スパースな行列」を扱う必要が出てきまして。生のままで扱うとメモリが足りなくなってしまい、さてどうしたものかと思い悩んでおりました。SASでも扱えないことはないんだけれど、計算にアホほど時間がかかるので、Rで疎行列として扱ったらどうだ…

【自然言語処理】単語変換テーブルが必要になったので作る。そしてちょっと間違える。

text2vecでベクトル化したあと、どうしたら面白いことができるか?を考えているのですが、それ以前の問題にぶち当たってとりあえずの解決方法を思いついたので記録に残します。

【統計検定】勉強用の書籍の紹介

以前、統計検定準一級を受けるぞ、ということで参考にしたサイトとこれから勉強するために読むべき本を紹介しました。wanko-sato.hatenablog.comここで紹介した本のうち、東京大学出版会の2冊を読み終えて、さて次はどうしようかと考えているところです。統…

【統計】仮説検定のロジックを追いかける(2)αエラーとβエラー

前回、工場における抜き取り検査を例にとり、二項分布における仮説検定のロジックを追いかけてみました。wanko-sato.hatenablog.com簡単に振り返ってみましょう。 例題は次のような設定でした。 1日の終わりにn=100個の製品を抜き取り検査し、その中の不良…

【統計】仮説検定のロジックを追いかける(1)二項分布を使った例題

統計検定準一級を受けるぞ、という話を前に書きました。wanko-sato.hatenablog.com勉強を進めているところでして、ひとまずは統計学入門 (基礎統計学)作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購…

【PC】juman++のインストールがうまくいかなかった話

昨日、Windows10 Insider Preview15025を導入した話を書きました。目的としては二つ。 juman++を動かしたい Rからlinuxのコマンドを実行したい そして、結果的にはRからjuman++を動かしてウハウハしたかったわけなのです。wanko-sato.hatenablog.com とりあえず…

【PC】insider previewを入れてUbuntu16.04を試す

(みなさん・・・聞こえ・・ますか・・・・私はいま・・・・・・Windows10 Insider Preview・・・・・・・Build 15025から・・語りかけて・・・・いま・・す)というわけで、PCにWindows10 Insider Previewを入れてみました。2017年2月4日段階での最新がBuil…

【自然言語処理】知識の構造化に向けた第一歩としての構文解析

Rで係り受け解析をやって語と語の関係を有向グラフにしよう!wanko-sato.hatenablog.comと思い立ったはいいのですが、これが考え出すとなかなかやっかいでして。そもそもどういうレベルで語と語の「関係」を定義づければいいのか、が自分の中であいまいだっ…

【統計】統計検定準一級を受けようと思う。

会社からの指令もあり、統計検定準一級を受けようと思います。最初はBioS受講という話もあったのですが、先々、データアナリストまたはデータサイエンティスト的な立場におさまることを考えると、BioSよりは統計検定の方がよかろう、という話に落ち着いたの…

【R】日本語文章をtext2vecで分析にかける

RMeCabなしでも、system()関数でMeCabに直接アクセスしてRで形態素解析ができるのでした。 RMeCabにはいろいろ便利な関数が入っていて、N-gramができる、とか、DTMが作れる、とか便利といえば便利です。が、個人的にはちょっと微妙だと思っております。とい…

【R】RMeCabを使わずにRでMeCabする方法

ノートPCを買ってやりたかったことのひとつに「日本語の係り受け解析」があります。日本語の係り受け解析器は、有名なところでCabocha、KNPがあります。いずれもPythonバインディングが提供されており、Pythonから動作させることが可能です。Pythonバインデ…

ノートPC買った

PC

ノートPC買いました。 購入したのはマウスコンピュータの"MB-K670SN-SH2-KK [Windows 10 搭載] (WEB購入限定モデル) "です。 そもそも、2年くらい前にMacProが壊れてしまいまして。でも、とりあえず当面使う用事がなかったので、スマホとiPadで必要なことは…

お問い合わせ

読み込んでいます...