作者|Karolis Urbonas ,亞馬遜歐洲商業智能部門負責人、資深數據科學家

亞馬遜商業智能科學家:當心你的數據會說謊,不要做數據騙子

我們都覺得數據科學家應該是客觀的,但他們卻可能有意或無意也可以帶來誤導的結果。我們研究了數據科學家們應該知道的三種常見的“謊言”。

我們認為數據科學家和分析師是客觀的,他們應該根據數據得出結論。這份工作要求使用“數據”,而不是謊言作為完成工作的基礎材料。但實際上卻恰恰相反,數據科學家受到無意識的偏見、同儕壓力、緊迫性以及其他因素如在數據分析和解釋過程中存在導致撒謊的固有風險的影響。這一切都是客觀存在的,而科學家自身的出發點卻沒有問題,就像西諺所言:“通往地獄的道路是用好意鋪就的”。

由於每個國家的每個行業都受到數據革命的影響,我們需要確保了解可能影響任何數據項目產出的危險機制。

平均無處不在的平均值

平均值這種過度使用的聚合度量造成了無處不在的謊言。無論何時使用平均指標– 除非底層數據正常分佈(這種狀況很少出現) – 平均值都無法反應現實的任何有用信息。當數據分佈偏斜時,平均值將受到影響,沒有任何意義。平均值不是一個強大度量工具,容易受到異常值與正態分佈有偏差的影響。

雖然統計學家幾十年前就知道了這些事實,但平均值仍然作為一個核心統計數據用於商業、機構和政府,可以驅動數十億甚至數万億美元的決策。那麼怎麼解決平均值的問題?不要使用平均值,本文不鼓勵使用平均值,平均值僅在極少數情況下才有效,在公佈統計度量值之前,您應該仔細思考數據分佈。解決問題的第一步– 使用中位數, 使用前99%和最低的1%指標來統計數據。

“平均值”一直是科學的基礎數據,很多追隨者對平均值深信不疑,他們對待它就像是對待宗教一樣。原因是什麼?由於很久以前自然科學中的正態分佈假設已經蔓延到的其他領域,特別是業務分析和其他企業數據應用。這已經毒害了了幾代分析師,他們到目前為止仍然使用平均數據。

將數據擬合為假設– 確認偏差

現該步驟是經典的解決方法。即使在交付使用數據解決問題之前, 即使該步驟也會影響到偏差,我們也要確認偏差。數據科學家認為解決問題的必然方式可以從根本上改變應該是客觀的過程。當對有關事項有強烈的情緒,比如表達或暗示時,這種偏見就會加劇。通常很難確定偏差,但這確實是區分專業數據分析師和平庸人事的不二法門。

典型的狀況是,當需要完成一個分析時,因為需要根據結果做出決策,因此分析師需要快速提供分析結果,這會帶來很大的壓力。這時結果中就會出現很多偏見,但確認偏差卻能讓分析師擺脫偏見的束縛。如果數據科學家不得不快速得到結果,他們不得不快速回答或者解決問題。這意味著他們會把發現的第一個雜散相關就當做答案。在這些情況下,數據科學家搜索證據以確認假設,即“為假設尋找數據”。

所謂“正確”的解決方案先入為主的進入了數據學家的大腦,導致數據科學家走向錯誤的方向,他們開始尋找證據。這時的數據探索並不客觀,為得到預先定義的結論,會出現數據的調整和擠壓。這時最重要的是從一開始就清楚地定義要求,收集有爭議的假設的證據和數據,即收集那些可以證明、反對假設或者與假設不相關的證據和數據。最後一步同樣重要,因為急於找到為問題找到解決方式,數據學家可能會忽略可能無法獲得總結或者解決問題所需的足夠的數據量。這不是大問題,也許問題本身需要重新定義。

發現模式——叢集錯覺

人類的大腦可以很好地識別模式。但這是數據科學家的致命陷阱。許多數據科學家被雇用“找到”模式,因此發現的模式越多,則工作就做的越好。這種錯誤的成功指標導致了大量工作的重點是搜索模式、細分和“特別的東西”。很多時候會超出預期,會有很多干擾,但這又很正常。

這導致了不存在的商業模式的虛構情境,依據這些情境做出決策,最終影響實際人口並強制實現這些模式。有一個非常簡單的例子– 尋找客戶細分,並試圖讓他們從一個細分“轉換”到另一個細分。當一個目標“細分”被推向另一個“細分”時,會帶來實際的影響。但這是非常危險的,可能導致許多錯誤決策,造成重大的損失。

不要做數據騙子

這絕對不是最終的決絕方案,你應該認識到可以影響判斷和洞察質量的其他認知偏見。但這些都是非常常見的陷阱,我已經看到數據科學家陷入這些陷阱,然後無意中又彌補謊言,而不是尋找真相。客觀性不是一個容易實現的目標,客觀性需要自我約束。數據越來越多,數據科學家的作用只會變得越來越重要。

最成功的數據科學家將非常重視可能存在的潛在偏差以及這些偏差可能導致的謊言。

補充:一個數據會說謊的例子

說到數據會說謊,最有欺騙性的的例子莫過於統計學中著名的辛普森悖論了。看看來自斯坦福講義裡的一個簡單例子。

某大學歷史系和地理系招生,共有13男13女報名。

Men/ Women

History 1/5 < 2/8

Geography 6/8 < 4/5

University 7/13 > 6/13

歷史系5男報名錄取1男,8女報名錄取2女。地理系8男報名錄取6男,5女報名錄取4女。

分析數據,會發現以下問題:

1)整個學校統計,男生錄取率(7/13)高於女生錄取率(6/13)。

2)但是,按系統計,每個系的女生的錄取率卻都高於男生錄取率。歷史系女生的錄取率(2/8)大於男生錄取率(1/5)。地理系女生錄取率(4/5)也高於男生錄取率(6/8)。

End.

轉貼自: 36大數據


留下你的回應

以訪客張貼回應

0

在此對話中的人們

Powered by Komento

Popular Tags

I was checking continually this blog and I'm impressed! To a great degree useful info exceptionally ...
Great Information sharing .. I am very happy to read this article .. thanks for giving us go through...
Great blog this is so interesting information i have read this article thank you so much for sharing...
This is a wonderful article, Given so much info in it, These type of articles keeps the users intere...
Some days you eat what's on your plate and move on, while others it's like your stomach is an empty ...