機器學習有 5 種偏差，會讓你的 AI 做出錯誤決策！

images/2021-02-26_105549

▲圖片標題(來源：科技報橘)

演算法偏差指的是機器學習過程中，核心演算法有問題或不適合當下的應用時所發生的錯誤。若演算法處理相似案例卻給出不同的結果，就需要回頭檢查演算法是否有問題。這可能是演算法核心的技術問題，也可能是演算法本身並不適合應用在此情境。

樣本偏差源自於程式開發早期，數據收集與清理過程的錯誤。若開發者選擇一個錯誤的、規模小的、包含很多問題數據點的，或是無法代表整個數據庫的數據樣本來訓練，那就有可能訓練出不準確的機器學習模型。

好消息是，樣本偏差的修復並不複雜，可以使用更大、更多樣化的數據集來訓練模型。可以多次訓練它，觀察它的行為，並調整參數以達到最佳答案。

偏見偏差這往往源自於數據一開始就有偏差，例如刻板印象或錯誤的案例假設。若使用這些數據，無論用什麼演算法，結果都會有偏差。

能見偏差不容易解決，可以嘗試使用全新的數據集，嘗試修改數據以消除現有的偏差。

這發生在數據的收集階段。數據往往是透過人或電腦量測與計算，然後再儲存於數據庫中。若計算、量測有問題，就會產生錯誤的數據，影響機器學習模型的結果。

若重要的數據被排除於數據庫，就會產生排除性偏差，模型也會得不到關鍵數據，造成運算結果的錯誤。

轉貼自：科技報橘

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page：　　　Big Data In Finance