前言
大家好,我是Teresa,這集的學習筆記是要讓大家思考機器學習到底可不可行?那就讓我們開始吧!
先來做個小測驗吧!若給你以下六張圖,它們分別被歸類為-1或+1,若再給你第七張圖,請你觀察前六張圖片來給定一個規則,你會將第七張圖歸類為+1或-1呢?
若你的答案是+1,其實答案是+1,因為前三張圖片的最左上角都是黑色的,後三張圖片的左上角是白色的,因此這題的規則是左上角的格子若是黑色就是-1,若是白色就是+1。回到第七張圖,它左上角是黑色的,因此答案是-1。
若你的答案是 -1,其實答案是+1,因為前三張圖片沒有對稱,後三張圖都是對稱的,因此這題的規則是有對稱的為+1,沒有對稱的為-1。回到第七張圖,它是有對稱的圖形,因此答案是+1。
其實還有更多隱藏的規則。發現了嗎?不同人所看到的規則都不同,因此不管你說的答案是哪個,都可能是錯誤的。這樣看起來機器學習是不是不可行呢?
如果從數學的角度來看另一個例子,若有3個位置而每個位置都只能有0或1,給定五筆資料,那你會怎麼決定這題的函式g呢?
輸入 | 輸出 |
0, 0, 0 | +1 |
0, 0, 1 | -1 |
0, 1, 0 | -1 |
0, 1, 1 | +1 |
1, 0, 0 | -1 |
如果我們把所有可能的256種結果都放在函式中,若請機器學習經過演算法後,找出函式讓這五筆資料跟上方的輸出結果相同。那符合這樣的結果所找出來的函式是好或不好呢?
輸入 | 輸出 | 假設 | 函式1 | 函式2 | 函式3 | 函式4 | 函式5 | 函式6 | 函式7 | 函式8 |
0, 0, 0 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 |
0, 0, 1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 |
0, 1, 0 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 |
0, 1, 1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 | +1 |
1, 0, 0 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 | -1 |
1, 0, 1 | ? | +1 | +1 | +1 | +1 | -1 | -1 | -1 | -1 | |
1, 1, 0 | ? | +1 | +1 | -1 | -1 | +1 | +1 | -1 | -1 | |
1, 1, 1 | ? | +1 | -1 | +1 | -1 | +1 | -1 | +1 | -1 |
從上方表格來看,有8種函式都符合前五筆資料,那你要怎麼判斷剩下的三個資料屬於+1還是-1呢?
從這兩種例子來看,如果我們要從沒有正解的資料中找到一個函式來決定它們的輸出,看起來是一件非常困難的任務。但回歸機器學習,我們想要的其實是我們找到的函式能否和原本的函式一樣好,就像是之前提到的信用卡核發的案例,我們不是從已有的舊客戶去決定應不應該核發,而是從一個新客戶來決定核發的結果會不會跟理想的狀況一樣正確。
我們會稱這樣的狀況為:no free lunch,意思是如果只是給機器資料,讓機器去學,資料會發生什麼事,通常我們會沒有辦法說出一個結論,因此我們會需要加上一些假設,不然任何規則都有可能成立。
那我們現在遇上難題了,機器學習似乎都不能做。那我們有哪些工具能把未知的資料做推論呢?
如果給你一個大瓶子,裡面有一堆綠色或橘色彈珠,那橘色的比例是多少呢?如果我們沒有一顆顆拿出來數,我們真的很難說這個瓶子裡橘色彈珠的比例是多少。
常見的方法是隨機抽10顆彈珠當作樣本來看橘色佔了幾顆,如果10顆裡面有3顆是橘色的,那我們可以說橘色彈珠的比例是30%。
我們假設橘色彈珠的機率是x,那麼綠色彈珠的機率就是1-x,x我們不知道是多少
我們剛剛隨機抽樣的方法,可以說橘色彈珠的機率是y,綠色彈珠的機率就是1-y,y我們知道是多少
從機率與統計的角度來看,我們不能確定我們隨機抽出來的樣本所得出的橘色比例就等於罐子裡真正的橘色比例,你有可能抽到全部都是綠色或全部都是橘色,但其實這樣的機率很小,所以我們可以說隨機樣本所得到的比例y和真正的比例x其實「大概」是很「接近」的,但我們沒辦法有確定的答案。所以x = y大概、差不多是正確的(PAC)
這在數學統計上,如果樣本(N)夠大,大致上來說x跟y是很接近的(會在某個誤差範圍裡),數學式子為:
當N很大的時候,這個y和x相差很大的機率會很小,這個不等式稱為Hoeffding’s Inequality(霍夫丁不等式),就像是丟銅板和民調為什麼和真實情況這麼相近。
把彈珠的例子回到機器學習,我們不知道的事情是「假說函式所得出的結果會不會等於目標函式的結果」,我們如果已經有一個固定的假說函式,把彈珠想成輸入資料,若抽出來之後,跟假說函式所得到的結果不一樣,就漆成橘色的,若一樣就漆成綠色的。全部漆完以後,
隨機抽出來的彈珠就會變成已知資料的數量。如果資料量夠大,只要檢查假說函式在這個資料上的表現好不好,有幾筆跟目標函式的結果不一樣,就等同假說函式跟目標函式不一樣的比例是多少。
我們取樣後的機率可以用來產生資料,也可以衡量假說函式和目標函式一不一樣。Eout是指h跟f在罐子裡一不一樣,相當於剛剛的機率x;Ein在資料上h跟f長的一不一樣,相當於剛剛的機率y。
套用到剛剛的Hoeffding’s Inequality,如果樣本數夠大,我們可以說這兩個函式就會很接近。
但,真正的機器學習是要有選擇的,而不是每次演算法都採用固定的一個假說函式。所以如果我們只有一個假說函式,我們就只是在「驗證」假說函式在資料上的結果好不好,而不是從演算法從假說集合中「選擇」一個假說函式。
如果我們有很多假說函式的話,你的演算法找到其中一個假說函式說在你所看到的資料上是全對的,那這個假說函式是好還是不好,要不要選這個假說函式?
如果我們所有人都投5次銅板,明明銅板擲到正反面的機率都是1/2,但你可能會覺得5次都擲到正面的那個銅板比較好。當我們有選擇的時候,我們可能就會有偏見的選擇所有丟的紀錄中最好的那一個,但其實這些銅板都是一樣的。
剛剛Hoeffding’s Inequality告訴我們取樣出來的機率和全部的機率大部分的時候是一樣的,只有很小的機率會是不好的。不好的是指取樣出來的機率y跟全部的機率x差得很遠。但我們又發現有選擇的時候,這些選擇會惡化不好的情形。原本只有一個銅板的時候,機率通常是1/2,最不好的機率也就只是每次都擲到正面的機率1/32。但如果今天有150個銅板的時候,你選到最不好的機率會超過99%,也就是不好的機率惡化了。
如果我們抽很多種樣本,其中總會遇到Hoeffding’s Inequality說的樣本是不好的。演算法沒有辦法自由自在地做選擇,有可能取得不好的資料。如同下表,每一列中可能都會有不好的資料,從Hoeffding’s Inequality我們可以知道這些不好的資料加起來機率會很小,但我們現在要的是演算法能夠自由自在地做選擇,就像是每一行中可能都會有不好的資料,只有D3和D1223會是好的資料。
D1 | D2 | D3 | …… | D1223 | DN | Hoeffding | |
h1 | BAD | BAD | BAD…… | ||||
h2 | BAD | ||||||
h3 | BAD | BAD | BAD | ||||
…… | |||||||
hm | BAD | BAD | |||||
ALL | BAD | BAD | BAD | ? |
如果只要有一個不好我們就說是不好的資料,那在所有不好資料的機率是多少?會比原本的機率大m倍。但如果我們的資料量夠大,不管演算法怎麼選,一定可以選到一個假說函式會有好的性質:Ein跟Eout是接近的。
最合理的演算法是算一個假說函式,它的Ein最小。因為如果它最小,Eout也就會最小。所以只要今天的假說集合是有限種的選擇,資料量夠多,演算法還是可以選到Ein跟Eout是接近的,機器學習還是可以做到事情。不過線是無限多條的,這裡就留下一個伏筆。
那麼,機器學習EP. 4就到此結束囉~如果喜歡、想追蹤我更多筆記,可以加入程式小白的 JS Python 學習群的社團。社團中也會有其他學習夥伴和你一起討論、交流、互動哦!