用機率看世界: 3月 2009

2009年3月23日星期一

兩個女兒的問題(機率的矛盾)

許多機率的問題常常和直覺互相違背，有研究顯示人類大腦天生不適合計算機率。簡單來說，我們常常被隨機現象"欺騙"。我這邊舉的幾個例子都是我被"愚弄"的問題，答案違背直覺就算了，更扯的是每次想的答案都不一樣...

先來看兩個女兒的問題。(假設生男生女機率一樣)

已知某個家庭有兩個孩子，至少其中一位是女孩，那麼這一家有兩個女兒的機率為何?

我最初的直覺是1/2，剩下一位是女生的機率就是1/2嘛。當然錯了...這裡面有個矛盾(陷阱)，現在同樣的問題換個說法:

某天你遇到多年不見的朋友G，你問她最近怎樣，有沒有小孩? 有，她說有兩個。你問道:"其中有女孩嗎?" 她答:"有"。那麼，兩個都是女孩的機率有多少?
答案是1/3

我再思考一次，把它拿來和擲硬幣相比。原本的問題就是"丟硬幣兩次，已知至少一次出現正面的情況下，兩次都是正面的機率?" 因為不知道是條件中的正面是第一次還是第二次才出現，所以樣本空間是:{正正，正反，反正}。也就是至少有一位女孩的樣本空間是{女女，女男，男女}，所以兩個女兒的機率是1/3。而一男一女的機率就是2/3。

現在將問題稍微變動

某天你遇到多年不見的朋友G，你問她最近怎樣，有沒有小孩? 有，她說有兩個。老大是女兒。那麼兩個孩子都是女孩的機率是多少?
答案: 1/2

這就是我一開始的想法，已知第一位是女的，第二位是女的機率就是1/2啊。老大已經被固定了，只剩老二可以變動~這意味著我一開始的直覺忽略了"次序"的問題。

再來看另外一個版本~

某天你遇到多年不見的朋友G，你問她最近怎樣，有沒有小孩? 有，她說有兩個。你問道:"其中有女孩嗎?" 她答:"有"。隔天，你看到G與一個小女孩在一起，你問道:"這是妳女兒嗎?", "是的"。那麼，G的兩個孩子都是女兒的機率是多少?
答案1/2

詭異的是這個問題提供的資訊和第一個問題一樣啊!! 為什麼是1/2啊啊啊啊啊?
我們一樣不知道次序啊!!
解答是這樣寫的:在隔天碰面之前，我們一樣不知道出生次序。可是，在看到小女孩之後，問題的意涵改變了! 現在的問題變成:"你沒有看到的那個小孩是女生的機率有多少?" 哇靠! 這就是我回答第一個問題時的直覺嘛。
就好比，你的朋友丟兩枚硬幣。遮住然後說，已知有一枚是正面，那另外一枚是正面的機率是多少? (1/3) 然後如果他把正面那一枚硬幣給你看，那麼剩下那一枚硬幣是正面的機率就從1/3變成1/2了，真不可思議......

這讓我想到電影<決勝21點>的那個機率問題~

2009年3月9日星期一

代表性偏誤(2)-隨機錯覺

講到隨機，大家的印象就是混亂無秩序，沒有趨勢，像下面這張圖:

又像是丟擲銅板，出現正反面的機率各1/2。現在丟銅板六次，一般人會認為出現 “正反正反正反” 的機率會大於 “正正正反反反”，(後者看起來有秩序)，更大於 “正正正正正反” (違背1/2的機率)。其實這三者出現的機率一樣，都是1/64。
如果你丟擲銅板300次，建立虛構的價格走勢圖，它可能長得像下面:

這份圖表顯示了上升趨勢，也可以用艾略特波浪理論來發掘型態。隨機出現的資料看起來呈現趨勢和型態，就是由於代表性偏誤所影響，或稱隨機錯覺。它和人們對於隨機的刻板印象不同，因此誤認它非隨機而且可預測。

這世界充滿了謊言和騙子，隨機錯覺讓他們大發利市。

看看下面八張圖，其中四張是隨機產生，四張是真正的股價。

(上圖來自J.J. Siegel的Stocks for the long run, 2nd edition)
Siegel用隨機程序畫出高低價的k線。在隨機走勢圖中無法預測未來，因為每次出現的價格都是獨立的，和過去不相干。另外四張是道瓊指數。

真實股價是B,D,E,H。隨機畫出的是A,C,F,G。
Siegel把這份圖讓華爾街的技術分析專家判斷，但他們無法有效辨別。技術分析的有效性不禁讓人懷疑。我還是希望技術分析是有效的，否則程式交易就不可行，但事實上是有價值的”黃金”極少，”狗屎”則滿地都是。下次再聽”專家”講解走勢圖並做出預測時，你要三思。

代表性偏誤(1)-Representativeness

代表性偏誤的意思是，人們把”相似性”和”機率”混為一談。舉例來說，我某位朋友f君的嗜好是日本動漫和模型，那麼你就會高估f君是宅男的可能性，而低估他是花花公子的可能。因為對f君的描述符合我們對阿宅的刻板印象。再舉個例子:

Steve內向害羞，對社交沒興趣，但熱於助人。他愛乾淨，對於細節非常要求，他的生活作風一絲不苟。
請問Steve最有可能的職業是: 農夫, 科學家, 工程師, 圖書館員, 律師?

上述沒有提供可以評估機率的資訊，但如果Steve的描述符合你對科學家的刻板印象，則你會認為Steve是科學家的可能性高些。用刻板印象進行判斷省時省力，是一種思考的捷徑。問題在於”相似性”不等於機率，而且每個人的刻板印象都不同，在評估上更會出錯。財務決策尤其如此。

** 不會計算機率
有一個不好的消息是，除了受過專業訓練的人，大部分人不擅長評估機率。看看這個問題:

在台灣人口中愛滋病患的比率是0.01%。愛滋篩檢有1%的可能性出錯，即結果為陽性(有染愛滋)但實際上沒有染病的機率是1%。反之結果為陰性，但是實際有病的卻沒檢驗出來的可能性也是1%。假設你身邊的友人生性風流，去做檢驗，結果是陽性，請問他實際染病的機率是多少?

大部分人的答案是99%，因為檢驗結果正確的機率為99%。
真正答案是1%。人口中只有0.01%有愛滋，有99.99%的人沒有。所以是:99.99%*1%+ 0.01%*99% =1% 你答對了嗎? 還是被”生性風流”所影響?

** 對樣本大小的遲鈍
假設台灣男生平均身高為165cm。那麼現在隨機在馬路上找一些男性，請問他們平均身高為何? 大部分人直接回答165cm，而不管這些男性是10人， 100人，還是1000人。樣本越大，平均值越接近165，樣本越小，越容易偏離165。
再來一個問題:
某個小鎮上有兩家醫院，一大一小。大醫院每天出生45名嬰兒，小醫院每天15名。如你所知的，生男生女的機率為50%。然而醫院裡每天出生的女生比例不一定剛好就是50%，有時多些，有時少些。
醫院每天記錄出生的男女比例，如果有哪天女生超過60%，他們會做特別記號。經過一年，請問哪家醫院的”特別記號”天數較多?
大醫院?
小醫院?
一樣多?

大部分人的答案是一樣多(包括我)。因為生男生女機會一樣，這符合我們對社會人口男女比的印象。但答案應該是小醫院，因為小醫院樣本少，比較容易出現偏離平均的行為。(大樣本的行為會符合理論機率，這是大數法則)。
對樣本大小的遲鈍會使我們錯誤評估交易策略的有效性。
例如農曆年效應: 農曆年過後台股通常會大漲，這個法則從1980到2009年只錯過5次，所以正確率為25/30=83.4%。但是三十年其實只有30個樣本，不具備統計意義。
在程式交易做策略的歷史回測時，樣本大小的問題便凸顯出來。所以歷史資料時間一定要夠長，但時間長不表示樣本夠大。真正的樣本是進場出場的訊號次數，如果回測十年只有進場10次，同樣不具統計意義。這時的辦法是放寬策略標準以增加進場次數。

用機率看世界

2009年3月23日星期一

兩個女兒的問題(機率的矛盾)

2009年3月9日星期一

代表性偏誤(2)-隨機錯覺

代表性偏誤(1)-Representativeness

過去一週的網頁瀏覽次數

追蹤者

2009年3月23日 星期一

兩個女兒的問題(機率的矛盾)

2009年3月9日 星期一

代表性偏誤(2)-隨機錯覺

代表性偏誤(1)-Representativeness

2009年3月23日星期一

2009年3月9日星期一