摘要:
我們都覺得數據科學家應該是客觀的,但他們卻可能有意或無意也可以帶來誤導的結果。我們研究了數據科學家們應該知道的三種常見的“謊言”。
亞馬遜商業智能科學家:當心你的數據會說謊,不要做數據騙子
我們都覺得數據科學家應該是客觀的,但他們卻可能有意或無意也可以帶來誤導的結果。我們研究了數據科學家們應該知道的三種常見的“謊言”。
我們認為數據科學家和分析師是客觀的,他們應該根據數據得出結論。這份工作要求使用“數據”,而不是謊言作為完成工作的基礎材料。但實際上卻恰恰相反,數據科學家受到無意識的偏見、同儕壓力、緊迫性以及其他因素如在數據分析和解釋過程中存在導致撒謊的固有風險的影響。這一切都是客觀存在的,而科學家自身的出發點卻沒有問題,就像西諺所言:“通往地獄的道路是用好意鋪就的”。
由於每個國家的每個行業都受到數據革命的影響,我們需要確保了解可能影響任何數據項目產出的危險機制。
平均無處不在的平均值
平均值這種過度使用的聚合度量造成了無處不在的謊言。無論何時使用平均指標– 除非底層數據正常分佈(這種狀況很少出現) – 平均值都無法反應現實的任何有用信息。當數據分佈偏斜時,平均值將受到影響,沒有任何意義。平均值不是一個強大度量工具,容易受到異常值與正態分佈有偏差的影響。
雖然統計學家幾十年前就知道了這些事實,但平均值仍然作為一個核心統計數據用於商業、機構和政府,可以驅動數十億甚至數万億美元的決策。那麼怎麼解決平均值的問題?不要使用平均值,本文不鼓勵使用平均值,平均值僅在極少數情況下才有效,在公佈統計度量值之前,您應該仔細思考數據分佈。解決問題的第一步– 使用中位數, 使用前99%和最低的1%指標來統計數據。
“平均值”一直是科學的基礎數據,很多追隨者對平均值深信不疑,他們對待它就像是對待宗教一樣。原因是什麼?由於很久以前自然科學中的正態分佈假設已經蔓延到的其他領域,特別是業務分析和其他企業數據應用。這已經毒害了了幾代分析師,他們到目前為止仍然使用平均數據。
留下你的回應
以訪客張貼回應