摘要: 這篇文章講解了何謂人工智慧,還有他所能和所不能。這篇文章很簡單的解釋了機器學習的盲區,還有創造人工智能的我們常常忽視的關鍵點。在採用人工智慧的預測時我們可能會出錯,在設計人工智慧的邏輯時我們可能會出錯,看完這篇文章,深入淺出的講解給你聽。
Google 李飛飛親自推薦好文!你不可不知的機器學習十大盲點都在這
「機器快速,準確但有點『笨』,而人緩慢,不精准卻充滿創造力!」
—-李飛飛
在柯潔和阿爾法狗大戰熱忱之時,李飛飛在推特推薦了一篇文章說明機器學習的十大誤區,並說:機器快速,準確但有點「笨」,而人緩慢,不精准卻充滿創造力!
機器學習過去往往發生在幕後:亞馬遜通過挖掘你的點擊和購買記錄來給你推薦新物品;谷歌通過挖掘你的搜索來投放廣告;臉書通過挖掘你的社交網路來選擇給你展示不同的新鮮事。然而機器學習現在已然登上了頭版頭條,成為了被熱烈討論的話題!機器學習演算法可以駕駛車輛,可以翻譯演講,贏得危險邊緣遊戲(哥倫比亞廣播公司益智問答遊戲節目)!我們不由自主會問:「他們到底能做什麼不能做到什麼?他們會是隱私、工作甚至是人類消失的開始呢?」大家對機器學習的關注固然很好,因為機器學習將會是塑造未來的主要推動力,但是這其中又有太多關於機器學習的錯誤觀念,我接下去要做的第一步就是糾正這些錯誤的觀念。讓我們快速流覽一下那些錯誤觀念。
機器學習只是在總結資料
事實上, 機器學習的主要目的是預測未知 。知道你過去看了什麼電影只是一種推測你之後想看什麼電影的方式;你的信用記錄預示了你會否按時付帳單。而對於機器人科學家,學習演算法提出假設,改進假設,而只有假設提出的預測成真時才會相信這些假設。學習演算法並不比科學家聰明,但卻有比科學家百萬倍快速的計算能力。學習演算法只是發現了事件之間的關聯
這是你對媒體口中機器學習的第一印象。一個非常著名的例子就是,谷歌搜索中關於「流感」搜索的增加是流感流行的跡象。當然這沒有錯,但是大多學習演算法可以發現更豐富的資訊,例如如果痣有著奇怪的形狀和顏色,並且在逐漸變大,那麼這可能會是皮膚癌。
機器學習只能發現相關性,而無法發現因果關係
實際上, 最流行的機器學習演算法之一就是由嘗試不同的行為之後觀察行為的結果 (本質上是發現因果關係)所組成的。比方說,電商網站可以嘗試不同呈現商品的方式,然後選擇其中能帶來最高購買量的方式。你可能不經意間已經參與了成千次這種實驗。因果關係甚至可以在一些無法進行實驗只能通過電腦處理之前記錄的資料的情形下被發現。
機器學習無法預測未見過的事件,也稱作「黑天鵝」效應
如果某些事之前從未發生過,那麼預測它發生的概率必然為零,不然呢?相反,機器學習很擅長高精度地預測稀有事件。如果 A 是 B 發生的原因,B 又是 C 發生的原因,那麼 A 可能導致 C 發生,即便我們從未見過其發生過。每一天,垃圾郵件篩檢程式可以標記出剛剛捏造而成的垃圾郵件(之前未出現過)。像 2008 年發生的房地產危機實際上是被廣泛預測到了的,只不過不是那時大多數銀行所使用的是有缺陷的模型而已。
你有越多的資料,你越可能得到錯誤的模式
試想,國家安全局查看了越多的電話記錄,越可能把一個無辜的人標記為恐怖分子,因為他的通話記錄正好匹配了恐怖分子檢測的機制。 對同一個體挖掘越多的屬性是會增加誤判的可能性 ,然而機器學習專家們是很善於把這種可能性降到最低的。另一方面,挖掘不同個體的同種屬性可以降低誤判風險,因為從中學習的規則有更多的依據。而且有些學習演算法可以在不同個體之間找到某些模式,從而使檢測機制更加穩定。也許某人拍攝紐約市政府的視頻並不可疑,同時另外一個大量購買硝酸銨的人也不可疑;然而如果這兩個人之間有電話聯繫,也許 FBI 就應該調查一下以保證他們之間不是在密謀爆炸襲擊了。
機器學習無視現存的知識
許多被機器學習滲透的領域裡的專家質疑像機器學習這樣不需掌握任何領域知識的方法。真正的知識是一個長期推理與實驗的過程中累積下的,你無法靠在一個資料庫裡跑一個原型演算法而學到。但不是所有的學習演算法都不使用領域知識;其中一些就會用資料去精煉已有的繁雜知識,使其變得十分精巧,進而呈現為電腦所能理解的形式。
電腦習得的模型人類無法理解
這自然會是一個引起人們關心的原因。如果一個學習演算法是黑箱模型,那麼我們怎麼能相信它給出的推薦呢?某些模型卻是非常難理解,比如給機器學習帶來最大成功的深度神經網路(從 youtube 的視頻裡識別貓咪)。但其他大多模型都完全可以被理解,比如我們之前提到的診斷皮膚癌用到的方法。
以上所有的誤解都是負向的,它們認為機器學習的能力比實際上更有限。以下的則是過於正向的錯誤觀念:
越簡單的模型越準確
這個觀念有時來自「奧卡姆剃刀」,但只說了我們應該傾向於更簡單的模型卻沒有給出原因。簡單模型更可取是因為他們更易於解釋和推理。但是有時與資料相容的簡單假設比複雜模型更不準確。一些強有力的學習演算法輸出模型看起來毫無理由的複雜,甚至還會繼續給複雜模型添加元件即便他們已經完美擬合了資料,但這也是它們比簡單模型更準確的原因。
機器學習發現的模式可以直接被採納
如果一個學習演算法輸出了一條診斷皮膚癌的規則,並且極其準確(任何符合這個條件的痣都是皮膚癌),這也不意味著你應該相信它。對於資料微小的改動都會導致演算法輸出同等精確卻非常不同的規則。只有那些對於資料中隨機擾動穩定的規則可以被相信,而不僅僅是作為預測的方式。
機器學習不久後會變成超級智慧
從每天人工智慧發展的新聞來看,非常容易有一種感覺,電腦已經接近於像我們一樣可以看,說話,推理;不久後就會把我們拋棄在塵土裡了。我們在人工智慧的第一個五十年走了條長路,機器學習是其近來成功的主要原因,然而我們還有很長的路要走。電腦可以非常好的完成特定的任務,卻依然沒有通用智慧,也還沒有人知道怎麼去教它們。
好了,到這你已經知道機器學習有時比我們想像的更強力,有時卻不那麼好。如何使我們更好運用機器學習也取決於我們!我們要對它們有更準確的理解!
轉貼自: 科技報橘
留下你的回應
以訪客張貼回應