DeepSeek解析1｜神秘AI公司掀起全球AI風暴，一篇看懂553天關鍵布局

0000

2025年開年沒多久，中國AI公司DeepSeek（深度求索）發布低成本AI模型DeepSeek，讓全世界都嚇了不小一跳：在受到美國牽制的背景下，這家神秘AI公司究竟是如何利用有限的資源，做出性能不輸OpenAI的AI模型？本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天，究竟經歷了什麼？ 1月13日，彭博資訊（Bloomberg）專欄作家、美國喬治梅森大學經濟學教授柯恩（Tyler Cowen）發表一篇文章，談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下，仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。柯恩在文章提及「DeepSeek V3」，經過他使用好幾天後，認為這是幾年來他用過的眾多大語言模型（LLM）中，可以名列前茅的LLM。 DeepSeek V3速度快、好用，而且有免費版。雖然在對於精深或困難問題的回應，DeepSeek V3還比不上美國的頂尖LLM，不過柯恩仍然把它列入第一流，包括一些測試人員，很多人也都認為DeepSeek V3表現傑出。DeepSeek-V3這款參數高達6,710億的大語言模型，在預訓練階段（pre-training，指在一個較小的、特定任務的數據集上進行微調fine-tuning之前，先在一個大數據集上訓練模型的過程）只用了55天，使用2048張H800 GPU叢集，費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言，無異是敲出一記警鐘。以往開發大語言模型需要龐大的資源，必須購買數量龐大的AI伺服器，建立人數眾多的研發團隊，因此投入資金從數十億美元起跳。如今大語言模型投入的資源可大幅降低，這將會有更多的公司投入大語言模型的開發，尋求新的商機。柯恩這篇專欄發表後，市場淡然處之，不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳，讓全球瘋狂下載

1月20日川普就任美國總統，DeepSeek於同一天發布他的推理模型「DeepSeek R1」，這個模型與Open AI的o1的性能相距不遠，互有高下。 DeepSeek R1的使用價格較o1便宜很多，每百萬輸入Token為0.14至0.55美元，而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元，o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

DeepSeek R1開始在全球廣受注意，在很多地區AI類App的下載次數名列前茅，短短數星期，目前累積下載次數超過1,800萬次。 DeepSeek R1、V3皆是開源模型，使用者可自由下載模型，然後安裝在自己的終端設備上，個人電腦加裝高階的圖形顯示卡後，即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」，3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek（深度求索）推出的AI模型，背後是一家利用AI進行投資的對沖基金「幻方量化」（High-Flyer）所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作，共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。幻方量化的AI模型非常成功，因此能在金融市場獲得豐碩的報酬，2022年ChatGPT問世後，梁文鋒應該注意到AI新時代來臨，推想他應該已經在幻方量化公司內開始研發大語言模型，並且採購輝達的GPU。

DeepSeek 553天關鍵布局

2023年7月17日，幻方量化成立DeepSeek，招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅，並且有在國外知名期刊發表過論文的紀錄。 2023年10月28日，DeepSeek成立僅3個多月，旋即發表DeepSeek-Coder，這是DeepSeek的第一個大語言模型。 1個月後、也就是11月29日，DeepSeek發表DeepSeek-LLM。 2023年12月15日，DeepSeek發表DreamCraft3D，這是一個3D生成模型。成立短短5個多月，DeepSeek發表4個大語言模型，成就相當驚人。進入2024年，DeepSeek在技術更加精進，發表出性能更佳的大語言模型。 2024年1月11日，DeepSeek發布DeepSeek-MoE，這是個「混合專家模型」，效能超越Llama 2-7B，且計算量降低60%。 2024年2月5日，DeepSeek發布DeepSeekMath，DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績，效能接近Gemini-Ultra和GPT-4的水準。 2024年3月11日，DeepSeek發布DeepSeek-VL。 2024年5月，DeepSeek發布MoE大模型DeepSeek-V2，該模型為開源，不僅公開技術內容，並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元，價格僅為GPT-4 Turbo的百分之一。 2024年6月17日，DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異，超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。 2024年8月16日，DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。 2024年9月5日，DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型，升級推出全新的 DeepSeek V2.5 新模型。 2024年11月20日，DeepSeek 發布 DeepSeek-R1-Lite，這是DeepSeek第一個推理模型，是DeepSeek-R1的先行版。 2024年12月13日，DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。 2024年12月26日，DeepSeek發布DeepSeek-V3，這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。 2025年1月20日，發布DeepSeek-R1開源模型，在數學、代碼、自然語言推理等任務上，效能與OpenAI o1正式版相當。 2025年1月27日，發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」，俄羅斯、伊朗也能循DeepSeek模式？

DeepSeek的模型能夠受到西方世界的注意及使用，主要是直接可在線上透過App或網站下載，不像其他中國開發的大語言模型必須與微信等綁定。 DeepSeek在2024年共發布10個大語言模型，最後發表的DeepSeek-V3獲得美國AI產業界的重視，讓大家見識到運算資源受限的中國，也能用相對較少的資金，開發出性能優越的大語言模型。其他受美國管制AI晶片出口的國家（如俄羅斯、伊朗、巴基斯坦等），或許也能夠循此模式，開發出類似的大語言模型。進入2025年，DeepSeek於1月20日發布DeepSeek-R1模型，這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上，效能與OpenAI o1正式版相當。 DeepSeek-R1發布後效應擴大，讓許多人懷疑，將來建立大語言模型時不需要像之前一樣部署大量的GPU，導致1月28日輝達股價大跌17%。 2025年1月27日，DeepSeek發布多模態大模型Janus-Pro。最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集，耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源，實際上DeepSeek的算力資源遠大於此。根據SemiAnalysis網站的資料，DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的，推測A100是禁令前購買，H800、H20應該是合法購買，因它們是為中國市場生產的降規版GPU。這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元，因此DeepSeek雖然開發成本遠低於OpenAI等大咖，但是仍須25.73億美元，可見開發大語言模型是資金與腦力密集的投資。

轉貼自： bnnext.com

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

AI

DeepSeek解析1｜神秘AI公司掀起全球AI風暴，一篇看懂553天關鍵布局

DeepSeek開源、便宜、性能佳，讓全球瘋狂下載

DeepSeek R1 與 OpenAI o1成本比較

DeepSeek創辦人「洞燭先機」，3年前就開始研發LLM及採購輝達GPU

DeepSeek 553天關鍵布局

DeepSeek「無懼禁令」，俄羅斯、伊朗也能循DeepSeek模式？

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

	今日	1078
	昨日	1532
	本週	2610
	本月	35040
	總訪客量	2781074