中國DeepSeek在台灣農曆新年期間推出了 AI 模型 DeepSeek-V3 和 DeepSeek-R1,引起了廣泛關注,並且在AI產業中掀起波瀾! 在經過數日的市場震盪與各方分析後,DeepSeek掀起的影響,可以歸納為「低成本與高效能」,有能力以更低的價格提供AI服務,進而推動AI技術普及,更進一步加速市場競爭,對其他AI公司構成了競爭壓力,促使加速技術研發。
中國AI企業急起直追
DeepSeek的成功可能並非個案。近期,其他中國科技公司也紛紛發表最新AI模型,聲稱可與 DeepSeek 和 OpenAI 的模型相提並論。美方的悲觀論者,例如卡內基國際和平基金會的中國AI專家 Matt Sheehan 就表示,美國政府若以為擊垮 DeepSeek 就能高枕無憂是大錯特錯。他認為,中國在AI領域的發展速度正不斷加快,美國應密切關注。 以下為近期推出AI模型的中國企業:
阿里巴巴雲 (Alibaba Cloud)
農曆新年期間,阿里巴巴雲發布了 Qwen 2.5-Max 模型,號稱在多項基準測試中超越 DeepSeek V3 和 Meta Llama 3.1。 根據「阿里雲」指出,Qwen2.5-Max 模型是阿里雲通義團隊對 MoE 模型的最新成果,預訓練資料超過 20 兆 tokens。在測試大學程度知識的 MMLU-Pro、評估程式設計能力的 LiveCodeBench、綜合能力評估的 LiveBench,以及近似人類偏好的 Arena-Hard 等多個權威評測中,該模型均展現出與 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet 比肩,甚至領先的性能。 通義團隊將 Qwen2.5-Max 與DeepSeek V3、Llama-3.1-405B,以及Qwen2.5-72B進行對比,聲稱在所有11項基準測試中,Qwen2.5-Max 全部超越了對比模型。
智譜 (Zhipu)
這家位於北京的新創公司以AI發展迅速著稱,其AutoGLM應用程式可幫助使用者透過複雜的語音指令操作手機,但近期被美國政府列入貿易黑名單。 智譜才於去年12月完成新一輪30億人民幣融資,智譜AI稱,新的投資方包括多家創投及國資,君聯資本等老股東繼續跟投,本輪融資將用於智譜GLM大模型系列的研發。在年前的1月23日,智譜發文宣佈旗下智譜GLM-PC開放體驗,宣稱「自主操作電腦的多模態 Agent再升級」 依據《IT之家》報導,GLM-PC是基於智譜多模態大模型的CogAgent,能像人類一樣「觀察」和「操作」電腦,協助用戶完成各類任務。GLM-PC v1.0 於 2024 年 11 月 29 日發佈並開放內測,目前最新推出「深度思考」模式、增加專用於做邏輯推理和代碼生成的功能、並提供了對Windows系統的支持。top: 1.5rem; font-weight: bold; color: navy;"> 月之暗面 (Moonshot AI)
與 DeepSeek 同日發布 LLM 模型,聲稱在數學和推理能力上可挑戰 OpenAI o1。該公司的 Kimi k1.5 模型以能處理大量中文字符而受到關注。 以Kimi k1.5 模型為例,其官方聲稱,模型在強化學習中把情境窗口擴展到128k,就好比給模型開了一個超長的「記憶窗口」,讓它能夠處理更長的數據序列,從而更好地理解和生成連貫的文本。 官方指出,模型採用部分軌跡回放技術(Partial Rollouts),就像是在瀏覽一個超長的影片,先快速全部看一遍,然後針對感興趣的部分詳細觀看,以提高訓練效率。 而在模型的行為優化方面,則采用了線上鏡面降算法(Online Mirror Descent),這種算法通過不斷調整模型的參數,使得模型在面對不同問題時能夠更靈活地找到好的解決方案。同時,模型在訓練時會優先選擇更有學習價值的問題進行訓練。
字節跳動 (ByteDance)
TikTok 母公司字節跳動推出豆包 (Doubao) 1.5-pro模型,聲稱在特定測試中優於OpenAI o1,且價格更具競爭力。 根據最新公布的跑分結果,Doubao 1.5 Pro 在 14 項基準測試中表現突出,特別是在推理能力和程式設計等領域,Doubao 1.5 Pro 在「BBH」推理測試中取得 91.6 的高分,而在「McEval」程式碼測試中也獲得了 70.2 分,這些分數分別超越了 OpenAI 的 GPT-4(分別為 89.2 和 58.7)及 Google 的 Gemini(分別為 92.6 和 67.0)。 該模型採用稀疏 MoE 架構,使得模型在保持高性能的同時,降低了算力需求,且採用自主數據生產體系,避免了數據蒸餾,確保了數據的獨立性和可靠性。
騰訊 (Tencent)
以遊戲和微信聞名的騰訊,在 AI 領域也有進展。其「混元」模型(Hunyuan) 在生成影片方面的表現據稱可與 Meta (元) Llama 3.1 相媲美,且所需的運算能力更低。 在去年11月騰訊混元宣布最新的 MoE(混合專家;Mixture of Experts)大語言模型「混元 Large」以及混元 3D 生成大模型「Hunyuan3D-1.0」正式開源後,模型可在 HuggingFace、Github 等技術社群直接下載,免費且可商用。 官方聲稱,「Hunyuan3D-1.0」解決了現有的3D生成模型在生成速度,以及泛化能力上不足的問題,可幫助3D創作者和藝術家自動化生產3D資產,可重建各類尺度物體,大到建築,小到工具花草。 應用上,3D生成相關技術已開始應用於UGC 3D創作、商品素材合成、遊戲3D資產生成等騰訊業務中。
轉貼自: bnnext.com
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應