摘要: 數據科學家的重要任務,就是減少與防止機器學習偏差,而防止偏差的最好方式,就是了解偏差發生的原因。一旦原因確定,就能採取行動來消除。量子運算博士生 Sara A. Metwalli 分享 機器學習偏差的 5 種類型、它們如何發生,以及如何減少影響,提供給 AI 模型開發者參考。
▲圖片標題(來源:科技報橘)
機器學習偏差的 5 種類型
演算法偏差(algorithmic bias)
演算法偏差指的是機器學習過程中,核心演算法有問題或不適合當下的應用時所發生的錯誤。若演算法處理相似案例卻給出不同的結果,就需要回頭檢查演算法是否有問題。這可能是演算法核心的技術問題,也可能是演算法本身並不適合應用在此情境。
樣本偏差(sample bias)
樣本偏差源自於程式開發早期,數據收集與清理過程的錯誤。若開發者選擇一個錯誤的、規模小的、包含很多問題數據點的,或是無法代表整個數據庫的數據樣本來訓練,那就有可能訓練出不準確的機器學習模型。
好消息是,樣本偏差的修復並不複雜,可以使用更大、更多樣化的數據集來訓練模型。可以多次訓練它,觀察它的行為,並調整參數以達到最佳答案。
偏見偏差(prejudice bias
偏見偏差這往往源自於數據一開始就有偏差,例如刻板印象或錯誤的案例假設。若使用這些數據,無論用什麼演算法,結果都會有偏差。
能見偏差不容易解決,可以嘗試使用全新的數據集,嘗試修改數據以消除現有的偏差。
測量偏差(measurement bias)
這發生在數據的收集階段。數據往往是透過人或電腦量測與計算,然後再儲存於數據庫中。若計算、量測有問題,就會產生錯誤的數據,影響機器學習模型的結果。
排除偏差(exclusion bias)
若重要的數據被排除於數據庫,就會產生排除性偏差,模型也會得不到關鍵數據,造成運算結果的錯誤。
轉貼自: 科技報橘
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應