online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 Claude實測|ChatGPT最強對手再升級:減少AI幻覺、設定人設、一口氣讀15萬字!

 


 

Claude推出最新版本 Claude 2.1,此版本能處理的上下文達200k token,且還能讓開發者自定義 API ,還有哪些功能?

Claude 2.1 大更新一次看

更新一:上下文長度翻倍至200K token

恰巧,近日 Claude 進行一波大更新。以往 Claude 能處理的上下文只有 10 萬 token(token 是文本處理中的最小單位,如單字或片語),現在 Claude 2.1 Pro 版能處理高達 200K 上下文。Anthropic 官方表示,200K 上下文約等於 150000 個單字或 500 頁文本,這意味著你可以上傳代碼、財務報表、或長篇文學作品,供 Claude 進行總結、問答、預測趨勢、比較和對比多個文檔。那它能處理漢語的能力有多強呢?我們可以以此前飽受爭議的 Yi-34B 舉例說明。同樣是發布支持 200K 超長上下文窗口版本, Yi-34B 可以處理約 40 萬漢字超長文本輸入,約等於一本《儒林外史》的長度。在語言模型上,長上下文能夠提供更精確的用法和含義,有助於消除歧義,幫助模型生成連貫、準確度的文本,比如「蘋果」一詞出現在「摘採水果」或「新款 iPhone」上,含義就完全迥異。

值得一提的是,在 GPT-4 尚未恢復即時網路瀏覽功能之前,免費的 Claude 能夠即時訪問網頁連結並總結網頁內容,即使到了現在,也是當下 GPT-3.5 所不具備的優點。免費版 Claude 還能讀取、分析和總結用戶上傳的文檔,哪怕碰上 GPT-4,Claude 處理文檔的表現也絲毫不遜色。我們同時給當下網頁版的 Claude 和 GPT-4「喂」了一份 90 頁的 VR 產業報告,並詢問同樣的問題。二者的反應速度沒有拉開差距,但免費版 Claude 的回覆反而更流暢,且答案的質量也略高,而 GPT-4 的檢索功能還會因為分頁和檢視受到限制,相當不「靈性」。檢索只是「兒戲」,作為提高學習或工作效率的工具,我們需要的是更「聰明」的模型。當我讓它們分析 VR 行業五年後的變化格局,雖然表達的觀點都差不多,但 Claude 以富有邏輯的分點作答取勝。

更新二:降低模型幻覺,寧願表達遲疑也不會給不正確的答案

答是能答得上來,能不能答對才是關鍵。過去一年,我們目睹不少被大模型「滿嘴跑火車」坑了的悲傷案例。Anthropic 稱 Claude 2.1 的虛假或幻覺類陳述減少了 2 倍,但它也沒有給出明確的數據,以至於輝達科學家 Jim Fan 提出質疑:「最簡單實現 0% 幻覺的解決方案就是拒絕回答每一個問題。」Anthropic 還設計了很多陷阱問題來檢驗 Claude 2.1 的誠實度。多輪結果表明,遇到知識的盲區,Claude 2.1 更傾向於不確定的表達,而不是生造似是而非的回答來欺騙用戶。簡單點理解就是,假如 Claude 2.1 的知識圖譜裡沒有「廣東的省會不是哈爾濱」這樣的儲備,它會誠懇地說「我不確定廣東的省會是不是哈爾濱」,而不是言之鑿鑿地表示「廣東的省會是哈爾濱」。

更新三:增添新應用「工具使用」,整合API

Claude Pro 的訂閱費用約為 20 美元,使用次數達到免費版的五倍,普通用戶可以發送的消息數量將根據消息的長度有所不同。還剩 10 條消息時,Claude 就會發出提醒。假設你的對話長度約為 200 個英語句子,每句 15-20 個單字,那麽你每 8 小時至少能發送 100 則訊息。若你上傳了像《大亨小傳》這樣大的文檔,那麽在接下來的 8 小時裡你可能只能發送 20 則訊息。除了普通用戶,Claude 2.1 還貼心的根據開發者的需求,推出了一項名為「工具使用」的測試版功能,允許開發者將 Claude 集成到用戶已有的流程、產品和 API 中。也就是說,Claude 2.1 可以調用開發者自定義的程式函數或使用第三方服務提供的 API ,可以向搜尋引擎查詢訊息以回答問題,連接私有數據庫,從數據庫搜尋訊息。你可以定義一組工具供 Claude 使用並指定請求。然後 Claude 將決定需要哪種工具來完成任務並代表他們執行操作,比如使用計算器進行複雜的數值推理,將自然語言請求轉換為結構化 API 等。

Anthropic 也做出了一系列改進提供 Claude API 的開發者更好地服務,結果如下 👇

• 開發者控制台優化體驗和用戶界面,使基於 Claude API 的開發更便捷

• 更容易測試新的 prompt(輸入提示/問題),有利於模型的持續改進

• 讓開發者像在沙盒環境中叠代試錯不同的 prompt

• 可以為不同的項目創建多個 prompt 並快速切換

• prompt 的修改會自動保存下來,方便回溯

• 支持生成代碼集成到 SDK 中,應用到實際項目中

更新四:導入系統提示功能,維持Claude人設

此外,Claude 2.1 還引入了「系統提示」功能,這是一種向 Claude 提供上下文和指令的方式,能夠讓 Claude 在角色扮演時更穩定地維持人設,同時對話中又不失個性和創造力。當然,不同於簡單 Prompt 的應用,該功能主要是面向開發者和高級用戶設計的,是在 API 使用的,而不是在網頁端使用。

和 Claude 2.0 一樣,Claude 2.1 每輸入 100 萬 token 需要花費 8 美元,比 GPT-4 Turbo 便宜了 2 美元,輸出為 24 美元,比 GPT-4 Turbo 便宜了 6 美元。適用於低延遲、高吞吐量的 Claude Instant 版本每輸入 100 萬 token 需要收費 1.63 美元,輸出為 5.51 美元。

是ChatGPT殺手還是平替?

就目前而言,雖然 Claude 2.1 表現很強悍,但仍只能充當 ChatGPT 當機的替代品,想要顛覆 ChatGPT 還有很長的路要走。打個不太嚴謹的比方,Claude 2.1 就像是丐版的 GPT-4。 以 Claude 2.1 Pro 最擅長的 200K 為例,儘管 Claude 2.1 Pro 理論處理能力上要比 128K 的 GPT-4 Turbo 更強,但實際結果顯示,在需要回憶和準確理解上下文的能力上,Claude 2.1 Pro 還是要遠遜色於 GPT-4 Turbo。OpenAI 開發者大會之後,網友 Greg Kamradt 曾對 GPT-4-128K 的上下文回憶能力進行了測試。透過使用 Paul Graham(美國著名程式設計師)的 218 篇文章湊了 128K 的文本量,他在這些文章的不同位置(從文章頂端 0% 到底部 100%)隨機插入一個語句:「在陽光明媚的日子裡,在多洛雷斯公園吃三明治是在舊金山的最佳活動。」然後他讓 GPT-4 Turbo 模型搜尋這個語句,並回答有關這個語句的相關問題,最後採用業界常用的 LangChain AI 評估方法來評估答案。

評估結果如上圖(請進入數位時代網站觀看),評估結果GPT-4 Turbo 可以在 73K token 長度內保持較高的記憶準確率。倘若訊息位於文檔開頭,無論上下文有多長,它總能檢索到。只有當需要回憶的訊息位於文檔的 10%-50% 區間時,GPT-4 Turbo 的準確率才開始下降。作為對比,該網友還提前要到了 Claude 2.1 Pro 的內測資格,並同樣做了「大海撈針」的測試。從評估的結果來看,在長達 20 萬 token(大約 470 頁)的文檔中,和 GPT-4 Turbo 一樣,Claude 2.1 Pro 文檔前部的訊息比後部的回憶效果差一些。但 Claude 2.1 Pro 上下文長度效果較好的區間是在 24K 之前,遠低於 GPT-4 Turbo 的 73K。超過 24K 後,Claude 2.1 Pro 記憶就開始明顯下降,90K 後,效果變得更差,出錯率更是大幅度上升。

可以看到的是,隨著上下文長度的增加,GPT-4 Turbo 和 Claude 2.1 Pro 檢測的準確度都在逐漸降低。儘管 Claude 2.1 Pro 的測試覆蓋了更寬的上下文長度,但相比更實用的準確度,GPT-4 Turbo 還是 Claude 2.1 Pro 需要追趕的對象。Claude 或許是免費版中最強的大模型之一。如果你是文字工作者,當 ChatGPT 崩潰,堪比 GPT-3.8 的 Claude 能夠解決你的燃眉之急,甚至表現得要更好。但個性化的 GPTs、輕鬆生圖的 DALL·E3,語音交流等功能都是 ChatGPT 不可多得的護城河。在強大的 GPT-4 Turbo 面前,升級後的 Claude 2.1 Pro 版本也得敗下陣來。

轉貼自: bnnext.com

若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance


留下你的回應

以訪客張貼回應

0
  • 找不到回應

YOU MAY BE INTERESTED