2009年3月23日 星期一

兩個女兒的問題(機率的矛盾)

許多機率的問題常常和直覺互相違背,有研究顯示人類大腦天生不適合計算機率。簡單來說,我們常常被隨機現象"欺騙"。我這邊舉的幾個例子都是我被"愚弄"的問題,答案違背直覺就算了,更扯的是每次想的答案都不一樣...


先來看兩個女兒的問題。(假設生男生女機率一樣)

已知某個家庭有兩個孩子,至少其中一位是女孩,那麼這一家有兩個女兒的機率為何?

我最初的直覺是1/2,剩下一位是女生的機率就是1/2嘛。當然錯了...這裡面有個矛盾(陷阱),現在同樣的問題換個說法:

某天你遇到多年不見的朋友G,你問她最近怎樣,有沒有小孩? 有,她說有兩個。你問道:"其中有女孩嗎?" 她答:"有"。那麼,兩個都是女孩的機率有多少?
答案是1/3


我再思考一次,把它拿來和擲硬幣相比。原本的問題就是"丟硬幣兩次,已知至少一次出現正面的情況下,兩次都是正面的機率?" 因為不知道是條件中的正面是第一次還是第二次才出現,所以樣本空間是:{正正,正反,反正}。也就是至少有一位女孩的樣本空間是{女女,女男,男女},所以兩個女兒的機率是1/3。而一男一女的機率就是2/3。

現在將問題稍微變動

某天你遇到多年不見的朋友G,你問她最近怎樣,有沒有小孩? 有,她說有兩個。老大是女兒。那麼兩個孩子都是女孩的機率是多少?
答案: 1/2


這就是我一開始的想法,已知第一位是女的,第二位是女的機率就是1/2啊。老大已經被固定了,只剩老二可以變動~這意味著我一開始的直覺忽略了"次序"的問題。

再來看另外一個版本~

某天你遇到多年不見的朋友G,你問她最近怎樣,有沒有小孩? 有,她說有兩個。你問道:"其中有女孩嗎?" 她答:"有"。隔天,你看到G與一個小女孩在一起,你問道:"這是妳女兒嗎?", "是的"。那麼,G的兩個孩子都是女兒的機率是多少?
答案1/2


詭異的是這個問題提供的資訊和第一個問題一樣啊!! 為什麼是1/2啊啊啊啊啊?
我們一樣不知道次序啊!!
解答是這樣寫的:在隔天碰面之前,我們一樣不知道出生次序。可是,在看到小女孩之後,問題的意涵改變了! 現在的問題變成:"你沒有看到的那個小孩是女生的機率有多少?" 哇靠! 這就是我回答第一個問題時的直覺嘛。
就好比,你的朋友丟兩枚硬幣。遮住然後說,已知有一枚是正面,那另外一枚是正面的機率是多少? (1/3) 然後如果他把正面那一枚硬幣給你看,那麼剩下那一枚硬幣是正面的機率就從1/3變成1/2了,真不可思議......

這讓我想到電影<決勝21點>的那個機率問題~

2009年3月9日 星期一

代表性偏誤(2)-隨機錯覺

講到隨機,大家的印象就是混亂無秩序,沒有趨勢,像下面這張圖:




又像是丟擲銅板,出現正反面的機率各1/2。現在丟銅板六次,一般人會認為出現 “正反正反正反” 的機率會大於 “正正正反反反”,(後者看起來有秩序),更大於 “正正正正正反” (違背1/2的機率)。其實這三者出現的機率一樣,都是1/64。
如果你丟擲銅板300次,建立虛構的價格走勢圖,它可能長得像下面:


這份圖表顯示了上升趨勢,也可以用艾略特波浪理論來發掘型態。隨機出現的資料看起來呈現趨勢和型態,就是由於代表性偏誤所影響,或稱隨機錯覺。它和人們對於隨機的刻板印象不同,因此誤認它非隨機而且可預測。

這世界充滿了謊言和騙子,隨機錯覺讓他們大發利市。

看看下面八張圖,其中四張是隨機產生,四張是真正的股價。

(上圖來自J.J. Siegel的Stocks for the long run, 2nd edition)
Siegel用隨機程序畫出高低價的k線。在隨機走勢圖中無法預測未來,因為每次出現的價格都是獨立的,和過去不相干。另外四張是道瓊指數。

真實股價是B,D,E,H。隨機畫出的是A,C,F,G。
Siegel把這份圖讓華爾街的技術分析專家判斷,但他們無法有效辨別。技術分析的有效性不禁讓人懷疑。我還是希望技術分析是有效的,否則程式交易就不可行,但事實上是有價值的”黃金”極少,”狗屎”則滿地都是。下次再聽”專家”講解走勢圖並做出預測時,你要三思。


代表性偏誤(1)-Representativeness

代表性偏誤的意思是,人們把”相似性”和”機率”混為一談。舉例來說,我某位朋友f君的嗜好是日本動漫和模型,那麼你就會高估f君是宅男的可能性,而低估他是花花公子的可能。因為對f君的描述符合我們對阿宅的刻板印象。再舉個例子:

Steve內向害羞,對社交沒興趣,但熱於助人。他愛乾淨,對於細節非常要求,他的生活作風一絲不苟。
請問Steve最有可能的職業是: 農夫, 科學家, 工程師, 圖書館員, 律師?

上述沒有提供可以評估機率的資訊,但如果Steve的描述符合你對科學家的刻板印象,則你會認為Steve是科學家的可能性高些。用刻板印象進行判斷省時省力,是一種思考的捷徑。問題在於”相似性”不等於機率,而且每個人的刻板印象都不同,在評估上更會出錯。財務決策尤其如此。

** 不會計算機率
有一個不好的消息是,除了受過專業訓練的人,大部分人不擅長評估機率。看看這個問題:

在台灣人口中愛滋病患的比率是0.01%。愛滋篩檢有1%的可能性出錯,即結果為陽性(有染愛滋)但實際上沒有染病的機率是1%。反之結果為陰性,但是實際有病的卻沒檢驗出來的可能性也是1%。假設你身邊的友人生性風流,去做檢驗,結果是陽性,請問他實際染病的機率是多少?

大部分人的答案是99%,因為檢驗結果正確的機率為99%。
真正答案是1%。人口中只有0.01%有愛滋,有99.99%的人沒有。所以是:99.99%*1%+ 0.01%*99% =1% 你答對了嗎? 還是被”生性風流”所影響?

** 對樣本大小的遲鈍
假設台灣男生平均身高為165cm。那麼現在隨機在馬路上找一些男性,請問他們平均身高為何? 大部分人直接回答165cm,而不管這些男性是10人, 100人,還是1000人。樣本越大,平均值越接近165,樣本越小,越容易偏離165。
再來一個問題:
某個小鎮上有兩家醫院,一大一小。大醫院每天出生45名嬰兒,小醫院每天15名。如你所知的,生男生女的機率為50%。然而醫院裡每天出生的女生比例不一定剛好就是50%,有時多些,有時少些。
醫院每天記錄出生的男女比例,如果有哪天女生超過60%,他們會做特別記號。經過一年,請問哪家醫院的”特別記號”天數較多?
大醫院?
小醫院?
一樣多?

大部分人的答案是一樣多(包括我)。因為生男生女機會一樣,這符合我們對社會人口男女比的印象。但答案應該是小醫院,因為小醫院樣本少,比較容易出現偏離平均的行為。(大樣本的行為會符合理論機率,這是大數法則)。
對樣本大小的遲鈍會使我們錯誤評估交易策略的有效性。
例如農曆年效應: 農曆年過後台股通常會大漲,這個法則從1980到2009年只錯過5次,所以正確率為25/30=83.4%。但是三十年其實只有30個樣本,不具備統計意義。
在程式交易做策略的歷史回測時,樣本大小的問題便凸顯出來。所以歷史資料時間一定要夠長,但時間長不表示樣本夠大。真正的樣本是進場出場的訊號次數,如果回測十年只有進場10次,同樣不具統計意義。這時的辦法是放寬策略標準以增加進場次數。