對話幻方梁文鋒：AI界的拼多多

0000

在中國的7家大模型新創公司中，DeepSeek（深度求索）最不聲不響，但它總是能以出其不意的方式被記住。

一年前，這種出其不意源自於它背後的量化私募巨頭幻方，是大廠外唯一一家儲備萬張A100晶片的公司，一年後，則來自它才是引發中國大模型價格戰的源頭。在被AI連續轟炸的5月，DeepSeek一躍成名。起因是他們發布的一款名為DeepSeek V2的開源模型，提供了一種史無前例的性價比：推理成本被降到每百萬token僅1塊錢，約等於Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以「AI界拼多多」之稱的同時，位元組、騰訊、百度、阿里等大廠也按耐不住，紛紛降價。中國大模型價格戰由此一觸即發。

瀰漫的硝煙其實掩蓋了一個事實：與許多大廠燒錢補貼不同，DeepSeek是有利潤的。

這背後，是DeepSeek對模型架構進行了全方位創新。它提出的一種嶄新的MLA（一種新的多頭潛在註意力機制）架構，把顯存佔用降到了過去最常用的MHA架構的5%-13%，同時，它獨創的DeepSeekMoESparse結構，也把計算量降到極致，所有這些最終促成了成本的下降。在矽谷，DeepSeek被稱作「來自東方的神秘力量」。 SemiAnalysis首席分析師認為，DeepSeek V2論文「可能是今年最好的一篇」。 OpenAI前員工Andrew Carr認為論文“充滿驚人智慧”，並將其訓練設置應用於自己的模型。而OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為，DeepSeek“僱用了一批高深莫測的奇才”，還認為中國製造的大模型，“將和無人機、電動汽車一樣，成為不容忽視的力量。”

在基本由矽谷牽動故事進展的AI浪潮裡，這是罕有的情形。多位產業人士告訴我們，這種強烈的迴響源自於架構層面的創新，是國產大模型公司乃至全球開源基座大模型都很罕見的嘗試。

一位AI研究者表示，Attention架構提出多年來，幾乎未被成功改過，更遑論大規模驗證。 “這甚至是一個做決策時就會被掐斷的念頭，因為大部分人都缺乏信心。” 而另一方面，國產大模型之前很少涉足架構層面的創新，也是因為很少有人主動去擊破那樣一種成見：美國更擅長從0-1的技術創新，而中國更擅長從1-10的應用創新。何況這種行為非常不划算——新一代模型，過幾個月自然有人做出來，中國公司只要跟隨、做好應用即可。對模型結構進行創新，意味著沒有路徑可依，要經歷許多失敗，時間、經濟成本都耗費龐大。 DeepSeek顯然是逆行者。在一片認為大模型技術必然趨同，follow是更聰明捷徑的喧嘩聲中，DeepSeek看重「彎路」中累積的價值，並認為中國的大模型創業者除應用創新外，也可以加入到全球技術創新的洪流中。 DeepSeek的許多抉擇都與眾不同。截至目前，7家中國大模型新創公司中，它是唯一一家放棄「既要又要」路線，至今專注在研究和技術，未做toC應用的公司，也是唯一一家未全面考慮商業化，堅定選擇開源路線甚至都沒融過資的公司。這些使得它經常被遺忘在牌桌之外，但在另一端，它又經常在社群中被使用者「自來水」式傳播。 DeepSeek究竟是如何煉成的？我們為此訪談了甚少露面的DeepSeek創辦人梁文鋒。這位從幻方時代，就在幕後潛心研究技術的80後創始人，在DeepSeek時代，依舊延續著他的低調作風，和所有研究員一樣，每天「看論文，寫代碼，參與小組討論」。和許多量化基金創辦人都有海外對沖基金履歷，多出身物理、數學等專業不同的是，梁文鋒一直是本土背景，早年就讀的也是浙江大學電子工程係人工智慧方向。多位行業人士和DeepSeek研究員告訴我們，梁文鋒是當下中國AI界非常罕見的“兼具強大的infra工程能力和模型研究能力，又能調動資源”、“既可以從高處做精準判斷，又可以在細節上強過一線研究員”的人，他擁有“令人恐怖的學習能力”，同時更像“老闆”。這是一次特別難得的訪談。訪談裡，這位技術理想主義者，提供了目前中國科技界特別稀缺的一種聲音：他是少有的把「是非觀」置於「利害觀」之前，並提醒我們看到時代慣性，把「原創式創新」提上日程的人。一年前，DeepSeek剛下場時，我們初次訪談了梁文鋒。如果說當時那句「務必瘋狂地懷抱雄心，且還要瘋狂地真誠」還是一句美麗的口號，一年過去，它已經在成為一種行動。以下為對話部分：

價格戰第一槍是怎麼打響的？

暗湧：DeepSeek V2模型發布後，迅速引發一場血雨腥風的大模型價格戰，有人說你們是業界的一條鯰魚。梁文鋒：我們不是故意要成為一條鯰魚，只是不小心成了一條鯰魚。暗湧：這個結果讓你們意外嗎？梁文鋒：非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事，然後計算成本定價。我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。暗湧：5天後智譜AI就跟進了，之後是位元組、阿里、百度、騰訊等大廠。梁文鋒：智譜AI降的是一個入門級產品，和我們同級的模型仍然收費很貴。位元組是真正第一個跟進的。旗艦車型降到和我們一樣的價格，然後觸發了其它大廠紛紛降價。因為大廠的模型成本比我們高很多，所以我們沒想到有人虧錢做這件事，最後就變成了網路時代的燒錢補貼的邏輯。暗湧：外部看來，降價很像在搶用戶，網路時代的價格戰通常是如此。梁文鋒：搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中，成本先降下來了，另一方面也覺得無論API，還是AI，都應該是普惠的、人人可以用得起的東西。暗湧：在這之前，大部分中國公司都會直接copy這一代的Llama結構去做應用，為什麼你們會從模型結構切入？梁文鋒：如果目標是做應用，那沿用Llama結構，短平快上產品也是合理選擇。但我們目的地是AGI，這意味著我們需要研究新的模型結構，在有限資源下，實現更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。除了模型結構，我們也做了大量的其他研究，包括怎麼建構數據，如何讓模型更像人類等，這都體現在我們發布的模型裡。另外，Llama的結構，在訓練效率和推理成本上，和國外先進水準估計也已有兩代差距。暗湧：這種代差主要來自哪裡？梁文鋒：首先訓練效率有差距。我們估計，國內最好的水準和國外最好的相比，模型結構和訓練動力學上可能有一倍的差距，光這一點我們要消耗兩倍的算力才能達到同樣效果。另外資料效率上可能也有一倍差距，也就是我們要消耗兩倍的訓練資料和算力，才能達到相同的效果。合起來就要多消耗4倍算力。我們要做的，正是不停地縮小這些差距。暗湧：大部分中國公司都選擇既要模型又要應用，為什麼DeepSeek目前選擇只做研究探索？梁文鋒：因為我們覺得現在最重要的是參與全球創新的浪潮。過去很多年，中國公司習慣了別人做技術創新，我們拿過來做應用變現，但這並非是一種理所當然。這一波浪潮裡，我們的出發點，就不是趁機賺一筆，而是走到科技的前沿，去推動整個生態發展。暗湧：網路和行動網路時代留給大部分人的慣性認知是，美國擅長搞技術創新，中國更擅長做應用。梁文鋒：我們認為隨著經濟發展，中國也要逐步成為貢獻者，而不是一直搭便車。過去三十多年IT浪潮裡，我們基本上沒有參與到真正的科技創新裡。我們已經習慣摩爾定律從天而降，躺在家裡18個月就會出來更好的硬體和軟體。 Scaling Law也正在被如此對待。但其實，這是西方主導的科技社群世代代孜孜不倦創造出來的，只因為之前我們沒有參與這個過程，以至於忽略了它的存在。

真正的差距不是一年或兩年，而是原創和模仿之差

暗湧：為什麼DeepSeek V2會讓矽谷的很多人驚訝？梁文鋒：在美國每天發生的大量創新裡，這是非常普通的一個。他們之所以驚訝，是因為這是一家中國公司，在以創新貢獻者的身份，加入他們遊戲裡去。畢竟大部分中國公司習慣follow，而不是創新。暗湧：但這種選擇放在中國語境裡，也過於奢侈。大模型是重投入遊戲，不是所有公司都有資本只去研究創新，而不是先考慮商業化。梁文鋒：創新的成本肯定不低，過去那種拿來主義的慣性也和過去的國情有關。但現在，你看無論中國的經濟體量，或是位元組、騰訊這些大廠的利潤，放在全球都不低。我們創新缺的肯定不是資本，而是缺乏信心以及不知道怎麼組織高密度的人才實現有效的創新。暗湧：為什麼中國公司－包括不缺錢的大廠，這麼容易把快速商業化當第一要義？梁文鋒：過去三十年，我們都只強調賺錢，對創新是忽略的。創新不完全是商業驅動的，還需要好奇心和創造欲。我們只是被過去那種慣性束縛了，但它也是階段性的。暗湧：但你們究竟是一個商業組織，而非一個公益科研機構，選擇創新，又透過開源分享出去，那要在哪裡形成護城河？像是5月這次MLA架構的創新，也會很快被其他家copy吧？梁文鋒：在顛覆性的技術面前，閉源形成的護城河是短暫的。即使OpenAI閉源，也無法阻止被別人追趕。所以我們把價值沉澱在團隊上，我們的同事在這個過程中得到成長，累積很多know-how，形成可以創新的組織和文化，就是我們的護城河。開源，發論文，其實沒有失去什麼。對技術人員來說，被follow是很有成就感的事。其實，開源更像文化行為，而非商業行為。給予其實是一種額外的榮譽。一個公司這麼做也會有文化的吸引力。暗湧：你怎麼看類似朱嘯虎的這種市場信仰派觀點？梁文鋒：朱嘯虎是自洽的，但他的打法更適合快速賺錢的公司，而你看美國最賺錢的公司，都是厚積薄發的高科技公司。暗湧：但要做大模型，單純的技術領先也很難形成絕對優勢，你們賭的那個更大的東西是什麼？梁文鋒：我們看到的是中國AI不可能永遠處於跟隨的位置。我們常說中國AI和美國有一兩年差距，但真實的gap是原創和模仿之差。如果這不改變，中國永遠只能是追隨者，所以有些探索也是逃不掉的。英偉達的領先，不只是一個公司的努力，而是整個西方技術社群和產業共同努力的成果。他們能看到下一代的科技趨勢，手上有路線圖。中國AI的發展，同樣需要這樣的生態。很多國產晶片發展不起來，也是因為缺乏配套的技術社區，只有第二手訊息，所以中國必然需要有人站到技術的前沿。

一群做「高深莫測」事的年輕人

暗湧：OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為DeepSeek僱用了“一批高深莫測的奇才”，做出DeepSeek v2的是怎樣一群人？梁文鋒：並沒有什麼高深莫測的奇才，都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人。暗湧：很多大模型公司都執著地到海外挖人，很多人覺得這個領域前50名的頂尖人才可能都不在中國的公司，你們的人都來自哪裡？梁文鋒：V2模型沒有海外回來的人，都是本土的。前50位頂尖人才可能不在中國，但也許我們能自己打造這樣的人。暗湧：這次MLA創新是如何發生的？聽說idea最早來自一個年輕研究員的個人興趣？梁文鋒：在總結出Attention架構的一些主流變遷法則後，他突發奇想去設計一個替代方案。不過從想法到落地，中間是漫長的過程。我們為此組了一個team，花了幾個月時間才跑通。暗湧：這種發散性靈感的誕生和你們完全創新組織的架構很有關係。幻方時代，你們就很少自上而下地指派目標或任務。但AGI這種充滿不確定性的前沿探索，是否多了管理動作？梁文鋒：DeepSeek也全是自下而上。而且我們一般不前置分工，而是自然分工。每個人有自己獨特的成長經歷，都是自備想法的，不需要push他。探索過程中，他遇到問題，自己就會拉人討論。不過當一個idea顯示出潛力，我們也會自上而下地去調配資源。暗湧：聽說DeepSeek對於卡片和人的調集非常靈活。梁文鋒：我們每個人對於卡片和人的調動是不設上限的。如果有想法，每個人隨時可以調用訓練集群的卡片無需審批。同時因為不存在層級和跨部門，也可以靈活地調用所有人，只要對方也有興趣。暗湧：一種鬆散的管理方式也取決於你們篩選到了一群強熱愛驅動的人。聽說你們很擅長從細節招人，可以讓一些非傳統評價指標裡優秀的人被選出來。梁文鋒：我們選人的標準一直都是愛和好奇心，所以很多人會有一些奇特的經歷，很有趣。很多人對做研究的渴望，遠超對錢的在意。暗湧: transformer誕生在Google的AI Lab，ChatGPT誕生在OpenAI,你覺得大公司的AILab 和一個新創公司對於創新產生的價值有什麼不同？梁文鋒：不管是Google實驗室，還是OpenAI，甚至中國大廠的AI Lab，都很有價值的。最後是OpenAI做出來，也有歷史的偶然性。暗湧：創新很大程度上也是一種偶然嗎？我看你們辦公區中間那排會議室左右兩側都設置了可以隨意推開的門。你們同事說，這就是要給偶然留出空隙。 transfomer誕生中就發生過那種偶然經過的人聽到後加入，最後把它變成一個通用框架的故事。梁文鋒：我覺得創新首先是信念問題。為什麼矽谷那麼有創新精神？首先是敢。 Chatgpt出來時，整個國內對做前沿創新都缺乏信心，從投資人到大廠，都覺得差距太大了，還是做應用吧。但創新首先需要自信。這種信心通常在年輕人身上更明顯。暗湧：但你們不參與融資，很少對外發聲，社會聲量上肯定不如那些融資活躍的公司，怎麼確保DeepSeek就是做大模型的人的首選？梁文鋒：因為我們在做最難的事。對頂尖人才吸引最大的，肯定是去解決世界上最難的問題。其實，頂尖人才在中國是被低估的。因為整個社會層面的硬派創新太少了，使得他們沒有機會被辨識出來。我們在做最難的事，對他們來說就是有吸引力的。暗湧：前段OpenAI的發表並沒有等來GPT5，很多人覺得這是技術曲線明顯在放緩，也很多人開始質疑Scaling Law，你們怎麼看？梁文鋒：我們偏樂觀，整個產業看起來都符合預期。 OpenAI也不是神，不可能一直衝在前面。暗湧：你覺得AGI還要多久實現，發布DeepSeek V2前，你們發布過代碼生成和數學的模型，也從dense模型切換到了MOE，所以你們的AGI路線圖有哪些坐標？梁文鋒：可能是2年、5年或10年，總之會在我們有生之年實現。至於路線圖，即使在我們公司內部，也沒有統一意見。但我們確實押注了三個方向。一是數學和程式碼，二是多模態，三是自然語言本身。數學和程式碼是AGI天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統，有可能透過自我學習就能實現很高的智慧。另一方面，可能多模態、參與人類的真實世界學習，對AGI也是必要的。我們對一切可能性都保持開放。暗湧：你覺得大模型終局是什麼樣態？梁文鋒：會有專門公司提供基礎模型和基礎服務，會有很長鏈條的專業分工。更多人在之上去滿足整個社會多樣化的需求。

所有的套路都是上一代的產物

暗湧：過去這一年，中國的大模型創業還是有很多變化的，例如去年開頭還很活躍的王慧文中場退出了，後來加入的公司也開始呈現出差異化。梁文鋒：王慧文自己承擔了所有的損失，讓其他人全身而退。他做了一個對自己最不利，但對大家都好的選擇，所以他做人是很厚道的，這點我很佩服。暗湧：現在你的精力最多放在哪裡？梁文鋒：主要的精力在研究下一代的大模型。還有很多未解決的問題。暗湧：其他幾家大模型新創公司都是堅持既要又要，畢竟科技不會帶來永久領先，抓住時間窗口把技術優勢落到產品也很重要，DeepSeek敢於專注在模型研究上是因為模型能力還不夠嗎？梁文鋒：所有的套路都是上一代的產物，未來不一定成立。拿網路的商業邏輯去討論未來AI的獲利模式，就像馬化騰創業時，你去討論通用電氣和可口可樂一樣。很可能是一種刻舟求劍。暗湧：過去幻方就有很強的技術和創新基因，成長也比較順利，這是你偏樂觀的原因嗎？梁文鋒：幻方某種程度上增強了我們對科技驅動型創新的信心，但也不都是坦途。我們經歷了一個漫長的累積過程。外部看到的是幻方2015年後的部分，但其實我們做了16年。暗湧：回到原創式創新的話題。現在經濟開始進入下行，資本也進入冷週期，所以它對原創式創新是否會帶來更多抑制？梁文鋒：我倒覺得未必。中國產業結構的調整，會更依賴硬派技術的創新。當很多人發現過去賺快錢很可能來自時代運氣，就會更願意俯身去做真正的創新。暗湧：所以你對這件事也是樂觀的？梁文鋒：我是八十年代在廣東一個五線城市長大的。我的父親是小學老師，九十年代，廣東賺錢機會很多，當時有不少家長到我家裡來，基本上就是家長覺得讀書沒用。但現在回去看，觀念都變了。因為錢不好賺了，連開計程車的機會可能都沒了。一代人的時間就變了。以後硬派創新會越來越多。現在可能還不容易被理解，是因為整個社會群體需要被事實教育。當這個社會讓硬派創新的人功成名就，群體性想法就會改變。我們只是還需要一堆事實和一個過程。

轉貼自： bnnext.com

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

AI

對話幻方梁文鋒：AI界的拼多多－揭秘DeepSeek！

在中國的7家大模型新創公司中，DeepSeek（深度求索）最不聲不響，但它總是能以出其不意的方式被記住。

瀰漫的硝煙其實掩蓋了一個事實：與許多大廠燒錢補貼不同，DeepSeek是有利潤的。

在基本由矽谷牽動故事進展的AI浪潮裡，這是罕有的情形。多位產業人士告訴我們，這種強烈的迴響源自於架構層面的創新，是國產大模型公司乃至全球開源基座大模型都很罕見的嘗試。

價格戰第一槍是怎麼打響的？

真正的差距不是一年或兩年，而是原創和模仿之差

更多的投入不一定會產生更多的創新

一群做「高深莫測」事的年輕人

所有的套路都是上一代的產物

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

	今日	845
	昨日	1450
	本週	3827
	本月	36257
	總訪客量	2782291