« ■Flash:数独 | トップページ | ■コマネチ大学数学科60講:ベイズの定理 (続き) »

2007年9月 1日 (土)

■コマネチ大学数学科60講:ベイズの定理

 もの忘れに関しては、誰にもひけを取らない私。「脳トレ」で有名な川島隆太氏によると「お酒を飲めば飲むほど、脳は萎縮する」と言う。ひぇ~なんてこったい。それでも「いいちこ」はやめられない「たけしのコマネチ大学数学科」え~と、第何講だったけか……。

問題:5回に1回の割合で忘れ物をする癖のある人がいる。A・B・C・Dの4箇所を回って家に帰ったとき、忘れ物をしたことに気づいた。2番目のBに忘れてきた確率を求めよ。ただし、忘れ物をしたのはどこか1箇所のみ。

 番組冒頭で竹内薫センセによる「モンティ・ホール問題」が紹介された。今回は、ややこしい確率の問題だ。まず「5回に1回の割合で忘れ物をする」ので、確率は「1/5」だ。しかし、立ち寄った場所が4箇所とゆーことは、忘れ物をしない確率があるということ。ところが「家に帰ったとき、忘れ物をしたことに気づいた」とある。さらに「忘れ物をしたのはどこか1箇所のみ」。つまり、Bで忘れ物をするには、Aで忘れ物をしていないことが条件になる。同じことがCやDでも言える。このような、ある行動や情報が、のちの確率に影響する条件付き確率をトーマス・ベイズは「事後確率」と呼び、もともとの確率を「事前確率」として区別している。

 コマ大数学研究会の面々は、4枚は「天国の吉田プロデューサ」の絵が描いてあり、1枚だけ「地獄の吉田プロデューサ」という5枚のカードを伏せてシャッフルし、4人が順番に引いていく戦略だ。もちろん「地獄」のカードを引いた者が忘れ物をしたとしてカウントする。
 数時間の検証を経てのコマ大数学研究会の答えは「184/816」。試行数816回のうち、2番手の無法松が引いた「地獄」カード数をカウント。4人がすべて「天国」カードだった場合、それを試行数に含めたかどうかはわからない。とゆーか、この方法には根本的な間違いがある(後述)。

 マス北野の答えは「27%」、東大生チームの答えは「100/369」。計算方法の説明も論理的でわかりやすかった。

 というわけで、正解は「100/369」。なぜ、そうなるのか。まず、Aの地点で忘れ物をする確率は(1/5)で問題ない。次のB地点で忘れ物をする確率は、A地点で忘れ物をしていないことが条件、Aで忘れ物をしていない確率(4/5)のさらに(1/5)になる。C地点では(4/5)×(4/5)×(1/5)、D地点では(4/5)×(4/5)×(4/5)×(1/5)となる。そして、E地点というのはないが、A~D地点で忘れ物をしない確率は(4/5)×(4/5)×(4/5)×(4/5)というわけ。計算の方法がわかったところで、実際の計算は「Maxima」にまかせよう。

20070831_01

 A~E地点、5箇所の確率を計算し、それらをすべて足すと「1」、つまり100%になる。しかし、A~Dまでの4箇所で確実に忘れ物をしたことがわかっている。問題はB地点の確率を求めることなので、B地点の確率÷全体(A+B+C+D)の確率で求めることができる。

 「100/369」を小数で表すと、0.271……となり、マス北野の「27%」も正解といえるが、東大生チームは、いち早く正解を出し、解法も理路整然としていたことから、コマネチ・フィールズ賞を獲得した。

 B地点以外の確率は、どーなっているのかというと、こんな感じ。

20070831_02

 さて、コマ大数学研究会は、数時間をかけて検証したわけだが、どこでどう間違えたかというと、それは「カード」を使ったこと。

20070831_03

 1番手が引くカードは5枚のうちの1枚なので確率は「1/5」になるが、2番手の無法松は、残り4枚から1枚を引くことになる。つまり、(4/5)×(1/4)の確率になってしまう。計算するまでもなく、この方法だと、A~Eまで、すべて均等な(1/5)の確率になる。当然、5箇所すべてを足せば「1」、100%になるが、今回の問題を正しく捉えていなく、4箇所のうち、B地点の確率は間違ったものとなる。では、どーすればよかったかと言うと、小道具としては、円を5等分したルーレットを使い、1箇所をアタリ(?)とする。誰かがアタリを引いた時点で最初に戻る。4人ともアタリを引かなかった場合は、試行数にカウントしないという方法を取ればよかったのだと思う。冒頭のFlashは、このような考え方でシミュレートしている。1000回程度では、あまり収束していかないが、正解(期待値)に近づくことはできる。

 とにかく「確率」の問題はややこしい。今、ふと、思ったのだけど「ややこしい」の「ややこ」は「稚児」? 赤ん坊は、言葉を話せず、コミュニケーション手段は「泣く」だけ? なぜ、泣いているんだろうと、その意味を探るのは「ややこしい」のかな……。それはともかく「スパゲッティ問題」で大ポカをしでかし、「同時確率と条件付き確率」で悩まされた。「モンティ・ホール問題」は、なぜかこれを否定する人が多くいる。理性的には認めても、感情的には、これを許さないということ? そこには確率は数学的に常に一定という思い込みがあるのかも。確率が観測者によって変わるとゆーことを実感することが難しいのかもね。なにはともあれ、これを機に過去記事で途中放棄した「モンティ・ホール」のFlashを引っ張り出して、完成させようかと思ったのだけど、すでに「いいちこ」な気分なので、それは、また気が向いたときに……^^;

(※結局、昨夜は酔いつぶれて寝てしまい、記事をアップしそこねた><;)

|

« ■Flash:数独 | トップページ | ■コマネチ大学数学科60講:ベイズの定理 (続き) »

コメント

こんにちは。N.G.です。

多角形の問題の疑問へのお答えありがとうございました。質問しっぱなしで返答してなくてすみません。

さて、今回の確率の問題ですがこれも解答に疑問があります。A,B,C,D のどこか1箇所で忘れ物をした内の、Bである確率なのだから1/4が解なのではないかと思うのです。詳しく書くと、どこか1箇所で忘れ物をしたという事象は、(1,0,0,0), (0,1,0,0), (0,0,1,0), (0,0,0,1) の4通りであり、これらの事象の起こる確率はどれも p・(1-p)^3 (p=1/5) であるので、B で忘れ物をする確率は p・(1-p)^3/(4・p・(1-p)^3)=1/4 ではないかと思うのです。番組で示された解答は、”最初にBで忘れ物をする確率”ではないかと思います。

と、ここまで書いてはたと気が付きました。"忘れ物をしたのはどこか1箇所のみ。" という条件は "この人の持ち物は一つだけである" ということなんでしょうか。これだと、A で忘れ物をしたら、もう B では忘れることができないので、番組の解答のようになりますね。問題の条件をこのように取るほうが自然なのかな?

投稿: N.G. | 2007年9月 1日 (土) 12時34分

N.G.さま、コメントありがとうございます。

 数学の問題というのは、実生活にあてはめてみると、不条理なことがありますね。今回の問題で「5回に1回は忘れ物をする」というのも、いったい何を基準にして1回、2回とカウントしているのか、さっぱりわかりません。外出の回数なのか、途中で立ち寄った店(場所)の数なのか、そもそも5回に1回は必ず忘れ物をするなんてことがあるんでしょうか^^;

 と、これは、あくまで数学の問題ですから「5回に1回」は「1/5」の確率で忘れ物をすると捉えましょう。また問題は「2番目のBに忘れてきた確率を求めよ」です。あえて、書きませんでしたが、B地点に1番目や、3番目に行くことがありません。B地地点に立ち寄ったのが2番目であることから「A→B→C→D」の順の他に「C→B→D→A」や「D→B→A→C」などの順が考えられますが、順番を変えても他の地点の確率が変わるだけで、2番目のB地点の確率は変わりません。この順番がポイントなのだと思います。同時確率じゃないということで。

 そして「忘れ物をしたのはどこか1箇所」というのは、別に何を忘れてきたのかは規定していません。持ち物が1つだけと考える根拠もありません。忘れたのは「財布」でも「携帯」でも「初心」でもいいわけです^^;

 たとえば、コインを投げて表、または裏が出る確率を「1/2」とします。3枚のコインを順番に投げます。事前確率は「1/2」ですが、3枚投げ終わったとき「表」は1枚のみ、と規定されると、1投目のコインが「裏」になったときのみ、2番目のコインを投げることができます。(1/2)*(1/2)の確率になり、3投目では(1/2)*(1/2)*(1/2)の確率になるわけです。もしも、1投目で「表」が出た場合、2投目、3投目で「表」が出る確率は、0%になってしまいます。状態によって2投目、3投目の確率が変わってしまう。これを「事後確率」と呼ぶのだと私は解釈しています。

 「モンティ・ホール問題」のように、観察者によって確率が変わってしまうこともあります。そして、しばしば直感に反するような答えが出ることがあります。今回の問題で、私がちょっと意外に感じたのは(1/5)の確率で「A・B・C・D」の4箇所を回り、忘れ物をしない確率、言い換えると、5番目のEで忘れ物をする確率は……
A:0.2
B:0.16
C:0.128
D:0.1024
E:0.4096
……のようにA,B,C,Dの順で確率が低くなり、じつは忘れ物をしないという確率が一番高く40%もあることです。今回の問題では「A・B・C・D」の4箇所のどこかで忘れ物をしたことはハッキリしているのですから、この忘れ物をしない確率を除外し、「A+B+C+D」を全体の分母と考えなければなりません。
 これって(1/5)の確率でアタリくじを引くという問題に置き換えると「残り物には副があるってこと?」と思いがちですが、くじや、ケーキや、カードの場合などは、コマ大数学研究会が検証したように、順を追って可能な選択肢が減っていくので、すべての場面において(1/5)という確率になります。あえて、カードで検証するなら、1番目の人が引いたカードは元に戻して、2番目の人が引く……というふうにしないとダメでしょう。

 また「A・B・C・D」の中に必ず忘れ物があるので、4箇所のうちのひとつにある確率は(1/4)という考え方は、あらかじめ「ジョーカー」を含む4枚のカードを、それぞれに配るようなもので、そもそも、問題にある(1/5)の確率で忘れ物をするという条件を満たしていません。

 やはり、確率の問題は、ややこしいですね;;

投稿: Gascon | 2007年9月 1日 (土) 18時30分

ご返答ありがとうございます。N.G.です。

すみません。やっぱり納得いきません。

>  たとえば、コインを投げて表、または裏が
> 出る確率を「1/2」とします。3枚のコインを
> 順番に投げます。事前確率は「1/2」ですが、
> 3枚投げ終わったとき「表」は1枚のみ、と規
> 定されると、1投目のコインが「裏」になった
> ときのみ、2番目のコインを投げることができ
> ます。

とかかれていますが、これだと一投目で「表」が出たときには二投目、三投目ができないわけで、三回投げて表が一回というのとは違うように思います。コマネチ大学の問題でも、A で忘れ物をした場合、B,C,D に寄らずに帰ってきたというのであればその通りだと思いますが、問題はA,B,C,Dに寄ってどこか一個所で忘れ物をしたということですから、Aのみで忘れ物をしB,C,Dでは忘れ物をしない、Bのみで忘れ物をしてA,C,Dでは忘れ物をしない、Cのみで忘れ物をしてA,B,Dでは忘れ物をしない、Dのみで忘れ物をしてA,B,Cでは忘れ物をしないという4つの事象のうち、Bのみで忘れ物をした確率を求めるのが正しいような気がしています。そして、Aで忘れ物をしたときに、B,C,D で忘れ物をできないようにするためには持ち物が一個だったと解釈するしかないのかなと思った次第です。

投稿: N.G. | 2007年9月 2日 (日) 00時42分

To: N.G.さま (from: Gascon)なんか文通しているみたいだ^^;

> Aで忘れ物をしたときに、B,C,D で忘れ物をできない
>ようにするためには持ち物が一個だったと解釈する
>しかないのかなと思った次第です。

 実際は、Aで忘れ物をしたときに、(1/5)の確率でBでも忘れ物をしちゃうんですよね。しかし、その場合「忘れ物をしたのは、どこか1箇所」という条件を満たさないので、カウントされないだけです。もしも統計をとったなら、2番目のBで忘れ物をした確率=(Bで忘れ物をした回数)÷(条件を満たしている総回数)になるわけです。まず、前提として考えなくちゃならないのは、Aで忘れ物をしたときに、BでもCでもDでも、忘れ物をすることがあることです(このへんがコマ大数学研究会の検証と違うところ)。だからこそ、条件を満たすためには、Aで忘れ物をしたときに、B,C,Dで忘れ物ができない……となるわけです。たぶん、N.G.さんも同じことを言っているのだと思いますが「持ち物は一個」という解釈を付け加えなくとも、説明できていると思うのですが、いかがでしょうか。

 コインの場合も同じで、私は「1投目のコインが『裏』になったときのみ、2番目のコインを投げることができます」と書きました。これは、1投目で「表」が出たとき、2投目は「投げることができない」ではなく「投げる必要がない」からです。実際は、1投目で表が出ても、2投目で表が出ることもあれば、3投目で表が出ることもあります。しかし「3枚投げ終わったとき『表』は1枚のみ」という条件を満たすには、1投目が「表」だったときは、必然的に2投目、3投目が「裏」だった場合のみを考慮します。これはコインを投げないということではなく、2投目で「表」が出る確率を求める場合、すでに1投目で「表」が出ていれば、2投目で「表」が出る確率は「0%」と考えるべきです。

 そこで、今回のコマネチ大学の問題の場合、4箇所を回わり、家に帰った時点で、どこかに忘れ物をしたことに気づいたわけですから、4箇所すべてを回る必要があります。でも、もしも、A地点で忘れ物をしたことに気づいたなら、そのまま家に帰っちゃってもオーケーです。問題は2番目のB地点で忘れ物をする確率を求めることですから、「忘れ物をしたのは、どこか1箇所」という条件がある以上、この場合、B地点で忘れ物をする確率は「0%」。これが事後確率(条件付き確率)だと思います。

※A地点で忘れ物をしたことに気づいたら「家に帰る前に、その場所を探せよ」とツッコミを入れたくもなりますが……^^;

投稿: Gascon | 2007年9月 2日 (日) 07時04分

こんにちは。いつもお世話になります。
先日は、リンクをありがとうございました。

私の記事コメントでも、珍しく議論が展開されました。
私もこの問題の解釈に悩みまして、忘れ物対象物は1個としないと成り立たないのではないかとも考えました。
また、Aでのみ忘れる確率は、64/625であり、Aを含んで忘れ物をする確率(1+12+48)/625=61/625を含んで、Aで忘れた後、Bで忘れたりしてもいいなら、Aで忘れる確率1/5は変わりません。
しかし、Aだけで忘れるのは、64/625になります。
B,C,Dでも同様なので、これだと、64/(625-256)が答えです。
忘れ物をしたら帰ると思わせるような問題文であればスッキリすると考えた次第でございます。
ガスコンさんのコインの説明からわかるように、そこまではいらないのかもしれませんけど。
そんな感想を持った回でした。

投稿: シャブリ | 2007年9月 2日 (日) 15時32分

始めまして。

僕はこの問題の場合、竹内先生の解説があんまり良くなかったな、と言う印象を持っています。
そして本質的には、モンティ・ホールの問題もあまり関係なく、本来、「ベイズの定理でもモンティ・ホールの問題は解けるんだよ」的な意味しかない、と思うのです。
通常、ベイズの定理は、

P(H_i|D)=P(H_i)*P(D|H_i)/ΣP(H_i)*P(D|H_i)

で書き表せます。ここでP(H_i)を事前確率、P(H_i|D)を事後確率、と呼ぶのです。
問題はP(D|H_i)なんですが、ここは通常「確率分布」を用います。今回の問題の場合で使用される確率分布は「幾何分布」と呼びます。そして、ここが統計学的には、「分析者の好きな」モデルを採用して構わない場所なんです。従って、N.G.さんの選んだ「二項分布」を使ってもあながち間違いでもないとは思います。ただし、ベイズの定理の場合で言うと、選んだモデルによって解が大きく変わるのが特徴なんです。つまり、N.G.さんが仰っているように「最初にBで忘れ物をする確率」ってのは間違っていませんし、また、シャブリさんが仰っているように「忘れ物対象物は1個としないと成り立たないのではないか」と解釈するのも正しいんじゃないか、と思います。問題設定をどう解釈するのか、どう言うモデルを採用するのか、でベイズ的には大きく答えが変わってくるんです。
実際、番組的な解法はそれほどベイズ中心の展開ではなく、どちらかと言うと地味な確率計算だったな、と思います。
問題の場合、それぞれの場所に忘れてきたとする仮説をH_A、H_B、H_C、H_Dとすると、「Bで忘れてきた事後確率」はベイズの定理を用いて、

P(H_B|D)=P(D|H_B)*P(H_B)/{P(D|H_A)*P(H_A)+P(D|H_B)*P(H_B)+P(D|H_C)*P(H_C)+P(D|H_D)*P(H_D)}

で書き表せます。
ここでAに忘れてきた事前確率、Bに忘れてきた事前確率、Cに忘れてきた事前確率、Dに忘れてきた事前確率、はどこかに忘れてきた事前確率がどれかより大きい、と思う根拠は特に無いようなんで、全て等確率の1/4とします(理由不十分の原則、等と呼びます。)
次にモデルとなる幾何分布ですが、問題の「忘れ物をする確率=1/5として、

P(D|H_i)=1/5*(4/5)^(i-1)

と表現します。
つまりこれを合わせると、

P(H_B|D)=(1/5*4/5*1/4)/{1/5*1/4+1/5*4/5*1/4+1/5*(4/5)^2*1/4+1/5*(4/5)^3*1/4}

となります。
あとは、事前確率は全て1/4なんで、約分可能で、そうするとガスコンさんの解説の通りの計算になります。
また、ベイズの定理の単純な適用、と言う事を考えると、必ずしも「忘れない確率がどうのこうの」と考える必要性も、実はあんまり無いんじゃないか、と思います。

投稿: 亀田馬志 | 2007年9月 3日 (月) 05時16分

ガスコン様、お付き合い下さりましてありがとうございます。N.G. です。

ガスコンさんの
>  そこで、今回のコマネチ大学の問題の場
> 合、4箇所を回わり、家に帰った時点で、
> どこかに忘れ物をしたことに気づいたわけ
> ですから、4箇所すべてを回る必要がありま
> す。
この説明でわかりました。題意はA,B,C,Dを訪れて、どこか1箇所で忘れ物をしたが、その忘れ物を捜しに再びA,B,C,Dを巡ってBの店で見つかる確率というものだったのですね。私はA,B,C,Dを訪れて、家に帰ってどこかに忘れ物をしたことに気づいたが、さてどこだったろうと(家で)考えたときに、実はBで忘れ物をしていた確率を考えていました。

すっきりしました。ありがとうございます。

投稿: N.G. | 2007年9月 3日 (月) 07時34分

亀田馬志さま:じつにすっきりとした説明をありがとうございます。分析者の好きな確率分布モデルを採用できるところが、確率問題をややこしくする理由(?)、議論が盛り上がる理由なんですね^^;

シャブリさま:いつもシャブリさんのブログで番組内容を詳しくフォローしてもらっているので助かります。私のほうは「詳しくは『シャブリの気になったもの』を見てね」とだけ書けばいいのですから^^;時間が経てば経つほど、過去問題のアーカイブとしての価値も高まるのではないかと思います。

N.G.さま:私のほうこそ、お付き合いありがとうございます。でも、まだ、すっきりしないでください^^;
今度は、私のほうがわからなくなりました。

 N.G.さんやシャブリさんの言うとおり、所持品を1つとしたほうが、すっきりするのは、私もわかっています。実際に、冒頭にあるFlashは、A地点で忘れ物をしたときは、以降の地点では、忘れ物ができないようになっています。

 私は、これを「A地点で忘れ物をする」確率から、「A時点で忘れ物をした」という既成事実が発生したと捉えました。この事実によって、B地点以降で「忘れ物をする」という確率が変動し「0%」になると考えたのです。だから、あえて所持品は1つと解釈しなくても、説明ができるのではないかと思った次第です。

 ところが、そのあとがいけません。自分でも、まったく矛盾するのですが「実際は、A地点で忘れ物をしたあとでも、B地点以降で忘れ物をする可能性がある……。そうならば、所持品は1つとは言えない」。私は「忘れ物をしたのは1箇所」という条件で、数箇所で忘れ物をした場合を除外できると考えました。

 そこで、A地点で忘れ物をしたという事実に縛られず、B地点以降でも忘れ物ができることを条件にして、実際にシミュレートしてみると、「1/4」の確率になっただけでした。考えてみれば当然のこと。家に帰った時点で「4箇所のうちどこか1箇所で忘れ物をした」ことに気づいたわけですから……。本末転倒、堂々巡りをしていただけです。

 つまり、私の書いた「Aで忘れ物をしたときに、(1/5)の確率でBでも忘れ物をしちゃうんですよね。しかし、その場合「忘れ物をしたのは、どこか1箇所」という条件を満たさないので、カウントされないだけです。」というのは、あきらかに私の思い込みで、間違いでした;;

 そうなると、N.G.さんや、シャブリさんのおっしゃる通り「所持品は1つ」と解釈するほうが、すっきりしますし、現実的ですね。

追記:私の使った「事後確率(条件付き確率)」という言葉も、用法が違うとゆーか、定義が間違っていたようです。

結局、いちばん、わかってないのは私だった><;

投稿: Gascon | 2007年9月 4日 (火) 13時00分

実はこの問題の場合、問題点が二つあるんです。まずは「解説のマズさ」の問題。もう一つは「果して現実的にはどうなんだ?」の問題。
僕もシャブリさんのトコでの議論を読んだりしたんですが、あのテレビでの解釈を見た限り、「事前確率が1/5」と解釈した人が多いんじゃないか、と。そうじゃなくって、事前確率は「1/4」の方なんです。変化する確率は1/5じゃないんです。1/4がモデルを経由して100/369に変化する。ここがポイントなんです。
竹内先生の解説がマズい、と思った理由は、「忘れ物をしない確率が〜」と言う事を強調した事なんです。何故なら、「既に忘れ物をした」と言う状況が成立している以上、「忘れ物をした/しない」と言う確率を考えることに論理的な意味は生じない。そっちが議論の対象になるべきではなくって、問題は「場所の確率」なんですね。
誰かが「B地点にものを忘れたんだから、確率は1/4なんじゃないの?」と仰ってましたが、そっちが直感的にも正解なんです。1/5はある意味全然関係無いのです。ただし、「新しい情報」つまり、意図的に行動パターンから考察するに、A→B→C→Dと回り、なおかつ1/5の確率で忘れ物をし、Aで忘れ物をしなかったらBで、以下同文、と言うモデルを組み立てたら、事後確率が1/4から変化していく、ってのがベイズ的には正しい考え方なんですね。確率が1/4、「新情報」が1/5を採用したモデルの方なんです。この辺りが議論を混乱させている一つ目の原因だと思います。
第2の問題点として、「ベイズの定理」自体は数学的には正しいんで、ここは議論の対象になり得ませんが、果して分析に対して正しいモデル選択を行ったのか?と言う問題が残ります。この問題の場合「幾何分布で良かったのか?」「幾何分布で現実を上手く説明出来るのか?」と言うトピックです。竹内先生は「99.9%は仮説」と言う本を書いておられます。この「仮説」の部分がモデル選択なんですけど、出てきた答えの現実の説明能力の検証を怠ったんじゃないか、と言う節がある。厳しい言い方をすると、これは物理畑の人なら「やっちゃいけない」事をやったんではないか、と。
ちょっと説明します。問題を次のように読みかえてみましょう。

問題:5回に1回の割合で忘れ物をする癖のある人がいる。A・B・C・Dの4箇所を回って家に帰ったとき、忘れ物をしたことに気づいた。効率的に忘れ物が見つけだす最短ルートを設定せよ。ただし、忘れ物をしたのはどこか1箇所のみ。

さて、こうなると、幾何分布モデルを採用する限り、ガスコンさんがモンテカルロ法で計算した通り、A→B→C→Dと言う「忘れ物をどっかでしたルート」をそのまま採用するのが答えになるでしょうね。つまり、「いつも忘れ物をする場所は最初に立ち寄った場所が一番確率が高い」と言うのが答になります。これが「数学的」に変わらない厳然たる事実となります。・・・・・・ん?
おかしいですね。今たった4件なんで問題は生じないんですが、では1,000軒回って、途中で忘れ物をした場合はどうなるんでしょうか?
連休中に女房と旅行にでも行って、立ち寄るべき場所が977軒目の時、はた、と忘れ物をどっかにした事に気づいた。

「やべ!!!どっかに財布を忘れたぞ!!!」
「あなた!!!どうするの?」
「しょうがない、1軒目に戻るぞ!!!」
「ええ〜逆から辿っていった方が良くない?」
「しょうがないじゃないか。"数学的”には1軒目に忘れた確率が一番高いんだから。」
「うっそ〜。だってアナタ、明日は仕事よ?大丈夫なの?」

さて、どちらの意見が真っ当に見えるのか?これも1,000軒立ち寄るモデルを「幾何分布」で作ってみて、モンテカルロ法で調べてみれば分かると思いますが、「1軒目」が一番確率が高くなってしまうんです。そして「2軒目」「3軒目」・・・・の順序。果してコレは妥当な結論なのかそうじゃないのか?
実は「分析者がモデルを勝手に採用して構わない」以上、まずはベイズの定理の適用を行った"結果”は数学ではないんです。つまり、解が無数にある以上、数学として「単一の解が保証されるような」シロモノではない、と言った事が一つ。つまり、「幾何分布を使ったモデルが妥当か否か?」と議論するのは十分に可能なんです。そして、上の思考実験する限り、「妥当じゃない」可能性がかなり高くなりますね。実際、ベイズ分析では「モデルの選択を誤るとおかしな結論が導き出せる」と言うような報告もあるんです。
実は「幾何分布」を用いると、全然「情報」の蓄積には役に立たないんですよ。これはベイズ分析の文脈で言うと決定的なミスディレクションなんですね。ベイズ分析の最大の特徴、「逐次合理性」と言うんですが、それを説明するにはあまり良くない選択なんです。番組内でスパムメール判定の説明がありましたが、これじゃ説明不可能なんです。
ですから僕も、N.G.さんが指摘しているように、オーソドックスに「二項分布」を採用する方が良いんじゃないか、と思います。例えば、現実的に「良く忘れ物をする場所」ってのがありますよね?例えば馴染のねーちゃんがいる店だ、とか(笑)。竹内先生だったら「猫がたくさんいる場所」とか(笑)。要するに「良く忘れ物をする場所が他の場所より事後確率が明らかに高くなってしまう」のがベイズ分析の特徴なんです。
問題の場合、本来だったら、

P(H_B|D)∝combin(n,x)*p^x*(1-p)^(n-x)*P(H_B)

としてしまった方が良いのではないか。しかも、「実際に忘れ物がBで見つからないと」ベイズ分析は画餅なんです。つまり、この「実際に忘れ物がBで見つかった回数」「見つからなかった回数」が二項分布のパラメータとして「カウントされて」それによりP(H_B)の事後確率P(H_B|D)がどんどん変化していく。それが「ベイズ確率」なんです。
こういうシステムじゃないと、スパムメール判別には役に立たないでしょ?さすがのスパムメールフィルタでも全く何もデータが無い状態で、「今から届くメールがスパムなのかそうじゃないのか」は判定出来ません。結果として、番組の(少なくとも編集された)説明は、あまりにも急ぎ足ですし、杜撰な説明だったんじゃないかな、と思うんです。

投稿: 亀田馬志 | 2007年9月 4日 (火) 16時51分

みなさん、今回は議論が盛り上がっているみたいですね(汗)

オリジナル問題では「帽子」を忘れたことになっています。帽子は一つです。

ベイズ確率の話をすると、ほぼ確実に議論になります。私としては、「何がベイズか」という議論よりは、「いちばん簡潔な解説」を選んだつもりです。ベイズ確率の説明は最初からしていません。

予備知識ゼロの視聴者に説明する手は何か? 私の結論は、「運は数学にまかせなさい—確率・統計に学ぶ処世術」の著者と同じ「比例の方法」でした。これ以外に、ベイズ確率を知らない人に説明するうまい手はないように思ったのです。

そもそも、一度、モンティ・ホールの問題をそのままやるべきだったのだと思います。(残念ながら、できませんでした。)

亀田様、いつも番組をご覧いただき、ありがとうございます。いろいろご批判はあると思いますが、できれば、一般の人(ベイズという言葉も知らない人)に、制限時間数分で、亀田流で問題を解説してみてあげてください。その結果、「比例の方法」よりわかりやすかった、ということであれば、その説明を送ってください。私のブログに掲載させていただきます。そうすれば、みなさんのもやもやも解消するでしょう。

投稿: 竹内薫 | 2007年9月 6日 (木) 04時45分

竹内薫さま、コメントありがとうございます。

忘れ物を具体的に「帽子」とすると、わかりやすいですね。「母さん、僕のあの帽子、どうしたんでせうね?」碓氷から霧積へゆくみちのどこかで落とした確率を求めなさい……と、これじゃベイズの証明じゃなくて「人間の証明」になってしまいます^^;

「薫日記」によると、いずれこの問題の解説をしてくれるということなので、楽しみにしています。

投稿: Gascon | 2007年9月 6日 (木) 10時22分

竹内薫さま:

御察しの通り、いつも番組拝見させてもらっています。また、著書も何冊か購入させて頂いていますし、竹内先生のスタンスに実は大いに共感させて頂いている一人です。
たけしのコマネチ大は本当毎週楽しみにして観ていて、特に竹内先生の明解な解説には感服しています。
誤解の無いよう申し上げておきますが、1ファンとして番組を観てるのですが、今回"だけ"は「解説の歯切れが悪かったな」と言う事です。

>そもそも、一度、モンティ・ホールの問題をそのままやるべきだったのだと思います。

多分そうなのかもしれません。
少なくとも、これとスパムメールの問題は同時には扱えないでしょう。
O.J.シンプソンの例なんかはカットされていましたし、果してあの場でどんな論理展開をしていたのか、視聴者側にはまるで分かりません。ですから、この辺りはフジテレビ(と言うか番組製作者)側の問題なのかな、と言う気もしています。

>ベイズ確率の説明は最初からしていません。

これは(笑)、仰ってる意味は分かります(笑)。
まあ、数学(と言うか物理学)専門の人なんで、もう用語出しちゃいますが、僕も説明書いた時点で「主観確率」と言う言葉自体は避けました。ここに介入するとモロに論争になっちゃいますからね。大体、その辺りの概念に関するケンカは統計学の連中同士が勝手にやってればいい、とか思っていますし(笑)。
ガスコンさんも上の方で

>「5回に1回は忘れ物をする」というのも、いったい何を基準にして1回、2回とカウントしているのか、さっぱりわかりません。

とか仰っていましたが、主観確率体系では別段不思議じゃない話です。どうも「普通の学校教育の範疇」では、「頻度の極限」としての確率しか教わらない。この辺り、竹内先生が「99.9%は仮説」でお書きになっていた通り「ある事が絶対に真実だ」と思わされる弊害がモロに出ていると思います。
そして、このポイントを避けるのは確かに賢明だと思います。
余談ですが、現在の数学の態度を見ている限り、「確率"自体”はどういうモノか?」を論じるのは避けているようですね。「計算体系」自体は作るけど、「確率そのもの」に関しては論じていない。
例えば、竹内先生も良くご存知でしょうが、「確率の数学的定義」を最初に決めたのはラプラスですが(しかもこの定義には穴があり過ぎた)、この「数学的定義」に従って黒体輻射を説明しようとして失敗したのがボルツマンです。
これを見れば分かりますが、「確率」は数学の問題として扱えますが、「現実への適用」を考えると無理が生じる場合がある。よって、「数学」自体は「確率の意味論」から逃げざるを得なかった、と言うのがホントのトコだと思うんですが、如何でしょう?
よって、ベイズである、ない、と言う問題を避けて、焦点はただ一つです。

「幾何分布が現実を上手く説明できる"仮説”なのかどうか」

ここ1点に絞りたいと思います。
ただし、竹内先生が「1/5の確率で忘れ物をする」人かどうかは分かりませんし(笑)、そこは問わないんですが、仮に

「オレは4箇所回って忘れ物をした事に気づいたとき、大体が最初立ち寄った場所に忘れ物をしてる。」

のが事実だったら、これはいかんともしがたいですね。数学的にはどうだか知りませんが、少なくともある意味では「実験事実」です(これはジャンケンで勝つ確率が1/3の筈なのに、良く負ける人は良く負ける、と言う事に似ているかもしれません)。
僕の立場は「いや、そんなことはないだろう」と言う事です。
残念ながら、その「運は数学にまかせなさい—確率・統計に学ぶ処世術」と言う本は持っていないんですが、そこで書かれている計算が怪しいのではないか、と言う立場を表明しておきます。んで、実際アメリカ人(?)も計算でポカはやらかしますし。

>その結果、「比例の方法」よりわかりやすかった、ということであれば、その説明を送ってください。

これは難しいでしょうね(苦笑)。でも可能だとも思います。
と言うのも「ベイズの定理」を使わないで、単に「Bで忘れ物をした確率は1/4」で極論構わないと思うんです。全く何の捻りも無いですし、これが回答だったら正直数学の問題にも何にもなりませんが(笑)、何の先験的知識もない人が直感的に「1/4」と答えて、それに付いて「正しいよ」って言ってあげるべきなんじゃないか、と思います。

取り敢えず僕も「薫日記」での論の展開を楽しみにしています。

投稿: 亀田馬志 | 2007年9月 6日 (木) 17時26分

全く議論とは関係ないですが、
>「母さん、僕のあの帽子、どうしたんでせうね?」
> 碓氷から霧積へゆくみちのどこかで落とした確率
> を求めなさい……と、これじゃベイズの証明じゃ
> なくて「人間の証明」になってしまいます^^;
ガスコンさん!これ上手い!私には大うけです。
ジョー山中+ユーサク!懐かしい。

投稿: シャブリ | 2007年9月 7日 (金) 16時54分

いつも覗かせてもらうばかりなので,
折角なので,こんなページもあります紹介。
http://www2.hamajima.co.jp/~mathenet/wiki/index.php?%5B%5B%A5%E2%A5%F3%A5%C6%A5%A3%A1%A6%A5%DB%A1%BC%A5%EB%A4%CE%A5%B8%A5%EC%A5%F3%A5%DE%5D%5D
モンティホールでは結構盛り上がりました。
色々な方が書き込んでいる?wikiなページです。参加者だれでも募集中

投稿: moonlight | 2007年9月 7日 (金) 22時17分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/99648/7760697

この記事へのトラックバック一覧です: ■コマネチ大学数学科60講:ベイズの定理:

» コマネチ大学 #59 [シャブリの気になったもの]
コマネチ大学 #59 たけしのコマネチ大学数学科#59  2007/08/30 深夜OA ? 今回のテーマは、 「ベイズの定理」   コマ大数学科特別集中講座/ビート たけし ¥1,000 ◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇ ? ランキングイギ... [続きを読む]

受信: 2007年9月 2日 (日) 14時52分

« ■Flash:数独 | トップページ | ■コマネチ大学数学科60講:ベイズの定理 (続き) »