摘要: 數據科學家的重要任務,就是減少與防止機器學習偏差,而防止偏差的最好方式,就是了解偏差發生的原因。一旦原因確定,就能採取行動來消除。量子運算博士生 Sara A. Metwalli 分享 機器學習偏差的 5 種類型、它們如何發生,以及如何減少影響,提供給 AI 模型開發者參考。

 


images/2021-02-26_105549

▲圖片標題(來源:科技報橘)

機器學習偏差的 5 種類型

演算法偏差(algorithmic bias)

演算法偏差指的是機器學習過程中,核心演算法有問題或不適合當下的應用時所發生的錯誤。若演算法處理相似案例卻給出不同的結果,就需要回頭檢查演算法是否有問題。這可能是演算法核心的技術問題,也可能是演算法本身並不適合應用在此情境。

樣本偏差(sample bias)

樣本偏差源自於程式開發早期,數據收集與清理過程的錯誤。若開發者選擇一個錯誤的、規模小的、包含很多問題數據點的,或是無法代表整個數據庫的數據樣本來訓練,那就有可能訓練出不準確的機器學習模型。

好消息是,樣本偏差的修復並不複雜,可以使用更大、更多樣化的數據集來訓練模型。可以多次訓練它,觀察它的行為,並調整參數以達到最佳答案。

偏見偏差(prejudice bias

偏見偏差這往往源自於數據一開始就有偏差,例如刻板印象或錯誤的案例假設。若使用這些數據,無論用什麼演算法,結果都會有偏差。

能見偏差不容易解決,可以嘗試使用全新的數據集,嘗試修改數據以消除現有的偏差。

測量偏差(measurement bias)

這發生在數據的收集階段。數據往往是透過人或電腦量測與計算,然後再儲存於數據庫中。若計算、量測有問題,就會產生錯誤的數據,影響機器學習模型的結果。

排除偏差(exclusion bias)

若重要的數據被排除於數據庫,就會產生排除性偏差,模型也會得不到關鍵數據,造成運算結果的錯誤。

轉貼自: 科技報橘

若喜歡本文,請關注我們的臉書 Please Like our Facebook Page:    Big Data In Finance

 


留下你的回應

以訪客張貼回應

0
  • 找不到回應

Popular Tags