中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,驚豔全世界。DeepSeek模型為何成功?將如何影響產業走向? 愈來愈多人開始測試、使用DeepSeek V3、DeepSeek R1,不少人使用的心得為DeepSeek性能不錯,價格僅OpenAI同級產品的2%左右,令人激賞。 為什麼DeepSeek能在有限的運算資源下(美國禁止高階AI晶片輸出到中國),能夠快速發展出大語言模型?並且在成立短短1年半後,即能開發出與美國OpenAI尖端大語言模型「比肩」的模型? 分析DeepSeek成功的因素如下:
成功因素一:人才、資源預先布局
首先,是DeepSeek創辦人梁文鋒在2015年成立對沖基金「幻方量化」,該公司主要的業務是積極研發機器學習、深度學習等技術,發展人工智慧進行金融操作。因此梁文鋒早就對人工智慧有深刻的認識。 ChatGPT問世後,梁文鋒應該注意到人工智慧新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。 梁文鋒累積一定基礎後,於2023年7月17日設立DeepSeek,專注研發AI大語言模型。 DeepSeek以高薪招募「天才級」(成績名列前矛以及曾在國際期刊發表論文)的「新鮮人」(剛畢業或畢業僅1、2年,碩士、博士在學研究生等)加入研發團隊。 DeepSeek的菁英團隊加上原有的基礎,撰寫出高效、精簡的程式。
成功因素二:以較少的運算資源,達成不錯效能
目前所有「大語言模型」未脫離Google Transformer架構,真正的創新是發展出另一套架構。 DeepSeek採用混合專家模型(MoE)架構與強化學習(RL)技術。MoE只啟動與特定任務相關的參數,這可提升運算效率並降低成本。 RL則採用創新的群組相對策略優化(GRPO)技術,這可以提升數學能力,擺脫對標註數據的依賴,不需要大量人工標註數據,降低訓練成本。 GRPO可促進自主學習,模型可透過多輪迭代,逐步優化它的行為策略。 DeepSeek降低數據精度採用FP8(8位元浮點運算),這可以提高運算速度,以較少的運算資源達成不錯的效能。 1月28日,DeepSeek一篇預先發表的論文,將數據精度降低到FP4,而且效能與BF16(16位元腦浮點)相當,這可進一步讓DeepSeek以更少的運算資源,達成同樣的效能。
成功因素三:利用模型蒸餾快速學習
模型蒸餾技術也讓DeepSeek能夠快速完成訓練自己的模型。所謂的模型蒸餾,是以成熟的模型(如ChatGPT o1)當作「老師模型」,而將欲訓練的模型(如DeepSeek V3)當作「學生模型」。 訓練過程是以同樣的資料,同時各自輸入老師與學生模型,將老師模型輸出的資料,逆向輸入學生模型,讓學生模型能學習老師模型參數設定的方式。 老師模型耗用很多資料與時間的訓練的成果,讓學生模型「蒸餾」出精粹的結果,節省龐大的資源與時間。 「短小精悍」的DeepSeek,讓大語言模型將來對運算資源需求有可能會降低,取而代之是眾多的「中小模型」。
DeepSeek R1與OpenAI o1差在哪?
讓我們以DeepSeek R1與OpenAI o1來比較兩者的性能與運算成本。 DeepSeek R1在數學、科學與程式設計領域表現突出,但是在一般化的應用,則需要額外微調。所幸由於DeepSeek R1的開源特性,讓開發者可以針對特定需求進行優化。 相較之下,OpenAI o1訓練於更廣泛的數據集,因此具備強大適應性,無需額外調整即可處理多種任務,適合通用AI的應用。 在隱私與數據安全方面,DeepSeek R1的數據儲存於中國境內的伺服器,由於可能涉及廣泛的使用者數據收集與沒有明確的共享政策,這可能引發使用者對資安疑慮。 相較之下,OpenAI o1受歐盟GDPR及美國CCPA法規監管,提供明確的「數據刪除機制」及「使用者隱私權」選項,可確保更高的透明度與安全性。 目前收費方面,DeepSeek R1遠低於OpenAI o1。 DeepSeek R1每百萬輸入Token價格為0.14至0.55美元,而Open AI o1每百萬輸入Token為7至15美元。 DeepSeek R1每百萬輸出Token為2.19美元,Open AI o1每百萬輸出Token為60美元。 DeepSeek R1、DeepSeek V3除了是「價廉物美」的大語言模型外,更重要的是它的開源性,可讓使用者自由下載。 據悉目前只要在PC上加裝中高階的圖形顯示卡(如輝達的RTX 40、50系列),即可下載DeepSeek R1或DeepSeek V3,讓使用者可單機使用AI大語言模型。 展望未來,輝達的高階GPU成長可能放緩,不過邊緣AI的應用將快速發展。機器人、自駕車等AI實體應用業者,將可修改DeepSeek大語言模型發展自己的AI,不必依賴像OpenAI公司這類開發大語言模型的公司。
轉貼自: bnnext.com
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應