2017-03-05

【統計】仮説検定のロジックを追いかける（２）αエラーとβエラー

統計学

前回、工場における抜き取り検査を例にとり、二項分布における仮説検定のロジックを追いかけてみました。

wanko-sato.hatenablog.com

簡単に振り返ってみましょう。
例題は次のような設定でした。

１日の終わりにn=100個の製品を抜き取り検査し、その中の不良品の数 $X$ が $X\geqq3$ の時製造工程に異常があるのではないかと判断して調査をし、 $X=0,1,2$ の場合には正常の状態であるとしてそのまま翌日の操業を続けるものとしよう。

(自然科学の統計学 p178より)

ある製造ラインの不良率が1%と仮定すると、その製造ラインから100個サンプリングしたときに不良品が抽出される確率は二項分布 $Bi(100,0.01)$ に従います。100個のサンプリング中に不良品が含まれる確率を各不良品数で計算していくと

不良個数	確率
0	0.366
1	0.370
2	0.185
3	0.061
4	0.015
5	0.003

このようになります。ここで、3個以上不良品が混ざる確率は不良品個数3以上の累積確率で計算でき、およそ7.9%になります。ここから

7.9%の確率でしか起こらない事象はめったに起こらないのだから、そもそもの仮説である「製造ラインの不良率は1%」という仮説が間違っているのだろう。

という結論を導くことになり、結果、製造工程に異常がある、と判断されるのです。
この7.9%の正体を探るのが今回の目的です。

2017-02-18

【統計】仮説検定のロジックを追いかける（１）二項分布を使った例題

統計学

統計検定準一級を受けるぞ、という話を前に書きました。

wanko-sato.hatenablog.com

勉強を進めているところでして、ひとまずは

統計学入門 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (83件) を見る

東大出版会の基礎統計学シリーズの統計学入門を読み終えました。入門とはいえ微積の計算がそこそこ出てくるので、微積にまったく触れたことのない、特に文系で数学を選択しなかった人にはちょっと辛い本かもしれません。
で、二冊目として基礎統計学シリーズの第三弾である

自然科学の統計学 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1992/08
メディア: 単行本
購入: 26人クリック: 308回
この商品を含むブログ (21件) を見る

こちらをを読み進めているところです。さすがに自然科学向けとあって微分、積分、行列演算の嵐です。まともに数学をやってこなかった自分にとってはなかなか難しい本です。数学の知識を補いつつ、なんとか頑張っていますけれども。
この本の第６章「検定と標本の大きさ」で検出力とサンプルサイズの決定方法について論じられています。自分はどうもこの「検出力」のロジックが苦手なようで、「検出力80%のサンプルサイズを云々」という話が出てもすぐにぱっと理解できないのです。統計検定を受けるにあたって、このあたり、つまり仮説検定のロジックがしっかりわかっていないとまずかろう、と思い立ちました。そこで、ブログにアウトプットすることで、ロジックをしっかりと追いかけ、考え方をしみ込ませよう、と思ったわけです。
仮説検定のロジックはそこまで複雑怪奇に入り組んでいるわけではありません。ただ、どの用語がどの確率を指しているのかを分かっていないと、論理の道筋を見失いがちです。ここでは、簡単な例題を出発点に、そのロジックを追いかけていきます。

※途中まで書いて、どう考えても長くなりそうなので、複数回に分けて書くことにしました。

2017-02-05

【PC】juman++のインストールがうまくいかなかった話

Linux 自然言語処理 PC

昨日、Windows10 Insider Preview15025を導入した話を書きました。目的としては二つ。

juman++を動かしたい
Rからlinuxのコマンドを実行したい

そして、結果的にはRからjuman++を動かしてｳﾊｳﾊしたかったわけなのです。

wanko-sato.hatenablog.com

とりあえず昨日の段階でInsider PreviewのインストールとUbuntuが16.04になっていることの確認まではできたので、次はjuman++のインストールだー、と

　 ∧＿∧ 　+
　（0゜・∀・）　　　ﾜｸﾜｸﾃｶﾃｶ
　（0゜∪ ∪ + 　　　　　　　
　と＿_）__）　+

しておったわけです。

2017-02-04

【PC】insider previewを入れてUbuntu16.04を試す

PC 自然言語処理 Linux

（みなさん・・・聞こえ・・ますか・・・・私はいま・・・・・・Windows10 Insider Preview・・・・・・・Build 15025から・・語りかけて・・・・いま・・す）

というわけで、PCにWindows10 Insider Previewを入れてみました。2017年2月4日段階での最新がBuild15025です。ほとんど使っていないHDDにパーティション切ってインストールしています。なんでこんなことをしたのか、その理由から語り起こしましょう。

2017-01-28

【自然言語処理】知識の構造化に向けた第一歩としての構文解析

自然言語処理

Rで係り受け解析をやって語と語の関係を有向グラフにしよう！

wanko-sato.hatenablog.com

と思い立ったはいいのですが、これが考え出すとなかなかやっかいでして。そもそもどういうレベルで語と語の「関係」を定義づければいいのか、が自分の中であいまいだったようです。なので、ここで改めて、きちんと考え直してみようと思います。
※今回はプログラミングの話はありません。

2017-01-21

【統計】統計検定準一級を受けようと思う。

統計検定統計学

会社からの指令もあり、統計検定準一級を受けようと思います。

最初はBioS受講という話もあったのですが、先々、データアナリストまたはデータサイエンティスト的な立場におさまることを考えると、BioSよりは統計検定の方がよかろう、という話に落ち着いたのでした。てことを書いちゃうと業界がばれちゃうんだろうか・・・？
また、最初は統計検定一級受験を提示されたのですが、過去問を見て、さすがにここまでばりばりの数理統計まではいらんだろう、という意見もあり、かといって二級では簡単すぎる、というので準一級。で、準一級の過去問をみたらさすがにこれを全部電卓で計算するのは（手法が全部頭に入っているわけではないので）辛そう。なので、復習と自己研鑽がてら、ここらでしっかり勉強しなおしてみよう、と思い立ったのでした。

2017-01-14

【R】日本語文章をtext2vecで分析にかける

R 自然言語処理

RMeCabなしでも、system()関数でMeCabに直接アクセスしてRで形態素解析ができるのでした。
RMeCabにはいろいろ便利な関数が入っていて、N-gramができる、とか、DTMが作れる、とか便利といえば便利です。が、個人的にはちょっと微妙だと思っております。というのも、RMeCabのN-gramは複数のN-gramを同時にできない、つまり1-gram、2-gram、3-gramを同時に作ってそのままDTMに放り込む、ということができません。
たとえば、

「今日　は　雨　です」

と分かち書きされた文は

1-gramの場合

今日
は
雨
です

2-gramの場合

今日_は
は_雨
雨_です

3-gramの場合

今日_は_雨
は_雨_です

とN-gramされます。残念なことにRMeCabの場合、1-gram、2-gram、3-gramの分割を同時にできず、3回の処理に分けなければなりません。

こいつぁ面倒だ。

ということで、他のパッケージで何とかできないか、と試してみたところ、text2vecパッケージを使えばうまくできたのでご報告。