国精产品一区二区三区有限|久热香蕉在线视频资源福利站|91岛国在线观看永久|aa片免费看一级片片AV|无码三级在线观看入口|亚洲第一色站妻免费毛A片|日韩免费Av特级无码毛片|天堂av2024|成人免费A级黄色片|91精产国品一二三产免费

Anthropic半月兩發(fā)新模型 “史上最強(qiáng)Sonnet”劍指智能體 定價(jià)僅為旗艦五分之一
原創(chuàng)
2026-02-18 11:55 星期三
科創(chuàng)板日?qǐng)?bào) 宋子喬
①Claude Sonnet 4.6被稱(chēng)為“史上最強(qiáng)Sonnet”的模型,性能接近Opus水平,但價(jià)格僅為后者的五分之一;
②Claude Sonnet 4.6可以被視為智能體的理想基礎(chǔ)模型;
③市場(chǎng)擔(dān)憂(yōu),Anthropic以低成本提供高性能模型,可能重構(gòu)企業(yè)軟件的定價(jià)模式。

《科創(chuàng)板日?qǐng)?bào)》2月18日訊(編輯 宋子喬) 北京時(shí)間2月18日凌晨,Anthropic悄然發(fā)布了其新一代中型模型Claude Sonnet 4.6。這款被官方稱(chēng)為“史上最強(qiáng)Sonnet”的模型,在多項(xiàng)基準(zhǔn)測(cè)試中接近Opus水平,但價(jià)格僅為后者的五分之一。

此時(shí)距離Anthropic的旗艦?zāi)P虲laude Opus 4.6發(fā)布不到半個(gè)月,Claude Opus 4.6于2026年2月5日正式發(fā)布。

Claude Sonnet 4.6可以被視為智能體(Agent)的理想基礎(chǔ)模型。它的設(shè)計(jì)目標(biāo)和核心能力升級(jí),正是為了支撐復(fù)雜的智能體任務(wù)。據(jù)介紹,其在計(jì)算機(jī)使用能力和智能體規(guī)劃方面表現(xiàn)尤為突出,可以執(zhí)行需要多個(gè)步驟的計(jì)算機(jī)操作,例如填寫(xiě)網(wǎng)頁(yè)表單,然后跨多個(gè)瀏覽器標(biāo)簽頁(yè)協(xié)調(diào)信息。Anthropic稱(chēng):“在操作計(jì)算機(jī)方面,該模型當(dāng)然仍落后于最熟練的人類(lèi)。但盡管如此,其進(jìn)步速度依然驚人?!辈贿^(guò),該模型在抵御提示詞注入攻擊(Prompt Injection Attacks)等安全威脅方面表現(xiàn)更好,這類(lèi)攻擊是指通過(guò)惡意指令操控AI模型。

Anthropic預(yù)計(jì),到2029年將向亞馬遜、谷歌和微軟支付至少800億美元,以在其云服務(wù)器上運(yùn)行Claude AI。

性能躍升 逼近“旗艦級(jí)”

Sonnet 4.6在編程、計(jì)算機(jī)操作、長(zhǎng)上下文推理、智能體規(guī)劃等任務(wù)處理上有了跨越式提升。Anthropic公布的基準(zhǔn)測(cè)試顯示,該模型在多項(xiàng)關(guān)鍵指標(biāo)上已接近甚至超越其2月6日剛發(fā)布的旗艦?zāi)P蚈pus 4.6。

在Agent金融分析和辦公任務(wù)(GDPVal-AA)兩項(xiàng)測(cè)評(píng)中,Sonnet 4.6的得分分別達(dá)到63.3%和1633 Elo,雙雙超過(guò)Opus 4.6的60.1%和1606 Elo。在評(píng)估真實(shí)世界軟件工程能力的SWE-bench測(cè)試中,其表現(xiàn)同樣逼近Opus水平。

模型保留了100萬(wàn)token的超大上下文窗口(測(cè)試版),這意味著它可以一次性處理整部《三體》trilogy級(jí)別的代碼庫(kù)或數(shù)百頁(yè)的研究論文。更重要的是,Anthropic強(qiáng)調(diào)Sonnet 4.6能夠“有效地在整個(gè)上下文中進(jìn)行推理”,這對(duì)于需要長(zhǎng)期規(guī)劃的復(fù)雜任務(wù)至關(guān)重要。

在計(jì)算機(jī)使用能力方面,Sonnet 4.6在OSWorld基準(zhǔn)測(cè)試中取得了72.5分,較一年前的28.0分實(shí)現(xiàn)質(zhì)的飛躍。早期用戶(hù)反饋顯示,它在處理復(fù)雜電子表格、填寫(xiě)多步驟網(wǎng)頁(yè)表單以及跨瀏覽器標(biāo)簽協(xié)同操作等任務(wù)時(shí),已展現(xiàn)出接近人類(lèi)水平的能力。

應(yīng)用場(chǎng)景:從代碼重構(gòu)到企業(yè)辦公

Sonnet 4.6的升級(jí)直接轉(zhuǎn)化為廣泛的應(yīng)用場(chǎng)景落地。在編程領(lǐng)域,一位開(kāi)發(fā)者在社交平臺(tái)X上分享了他的驚艷體驗(yàn):Sonnet 4.6僅用一次API調(diào)用就重構(gòu)了整個(gè)代碼庫(kù)——執(zhí)行了25次工具調(diào)用,新增3000多行代碼,創(chuàng)建了12個(gè)全新文件,將單體應(yīng)用成功模塊化。

在企業(yè)級(jí)應(yīng)用中,Box公司首席技術(shù)官Ben Kus證實(shí):“Sonnet 4.6在深度推理和復(fù)雜Agent任務(wù)上表現(xiàn)出了顯著進(jìn)步,在重度推理Q&A任務(wù)上比Sonnet 4.5提升了15個(gè)百分點(diǎn)?!苯鹑诳萍脊綡ebbia也報(bào)告稱(chēng),其內(nèi)部基準(zhǔn)測(cè)試的答案匹配率出現(xiàn)大幅躍升。

值得注意的是,Sonnet 4.6展現(xiàn)出了一種近乎“戰(zhàn)略思考”的能力。在Vending-Bench Arena模擬商業(yè)運(yùn)營(yíng)的評(píng)測(cè)中,該模型發(fā)展出了一套獨(dú)特策略:前期重金投資能力建設(shè),最后階段迅速轉(zhuǎn)向盈利,最終收益遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。

Anthropic的“性?xún)r(jià)比之作”

Claude Sonnet 4.6延續(xù)了Sonnet系列的經(jīng)濟(jì)定價(jià)策略:每百萬(wàn)token輸入3美元、輸出15美元,與Sonnet 4.5持平。由于性能直接逼近Opus級(jí)別,對(duì)于免費(fèi)和Pro訂閱用戶(hù),它已成為claude.ai和Claude Cowork的默認(rèn)模型。

AWS已第一時(shí)間宣布Sonnet 4.6在Amazon Bedrock上架,稱(chēng)其為“Anthropic的最強(qiáng)計(jì)算機(jī)使用模型”。

市場(chǎng)擔(dān)憂(yōu),Anthropic這種以低成本提供高性能模型的做法,正在加速AI融入真實(shí)工作流,并可能重構(gòu)企業(yè)軟件的定價(jià)模式,這種情緒在短時(shí)間內(nèi)轉(zhuǎn)為焦慮與擔(dān)憂(yōu):AI是否會(huì)顛覆或是直接取代SaaS乃至軟件行業(yè)。

在與Opus 4.5的對(duì)比測(cè)試?yán)?,用?hù)有59%的時(shí)間更偏好Sonnet 4.6。開(kāi)發(fā)者普遍認(rèn)為,Sonnet 4.6在修改代碼前能更有效地讀取上下文,整合共享邏輯而非簡(jiǎn)單復(fù)制,并且“過(guò)度工程化更少、幻覺(jué)更少、多步驟任務(wù)執(zhí)行更穩(wěn)”。一位開(kāi)發(fā)者直言:“Claude Sonnet 4.6以更低的成本實(shí)現(xiàn)了接近Opus的智能水平,這對(duì)預(yù)算有限的團(tuán)隊(duì)意義非凡?!?/p>

不過(guò),也有部分用戶(hù)認(rèn)為Sonnet 4.6未達(dá)到預(yù)期,指出其在編程方面并未全面超越Opus 4.5,更像是“Cowork功能的升級(jí)”。

關(guān)于Anthropic

Anthropic由前OpenAI研究副總裁達(dá)里奧·阿莫迪兄妹于2021年創(chuàng)立,核心團(tuán)隊(duì)曾參與GPT-2和GPT-3的早期研發(fā)。因?qū)penAI的發(fā)展方向存在分歧,他們離職創(chuàng)辦了這家致力于AI安全與研究的公司。

憑借創(chuàng)始人團(tuán)隊(duì)的光鮮背景,該公司融資步伐迅猛,自成立以來(lái)累計(jì)融資額已超300億美元。2026年2月,公司剛完成300億美元G輪融資,投后估值飆升至3800億美元,使其成為全球估值第二高的AI獨(dú)角獸,僅次于OpenAI。本輪融資參與方包括光速創(chuàng)投(Lightspeed Venture Partners)、門(mén)洛風(fēng)險(xiǎn)投資(Menlo Ventures)、摩根士丹利投資(Morgan Stanley Investment)、NX1資本(NX1 Capital)及卡塔爾投資局(Qatar Investment Authority)。

Anthropic最核心的產(chǎn)品是Claude系列大語(yǔ)言模型,按照能力梯隊(duì)劃分為三個(gè)層級(jí):

Claude Opus系列:旗艦級(jí)模型,代表當(dāng)前最高智能水平。

Claude Sonnet系列:性能與成本的平衡之選,也是大眾用戶(hù)接觸最多的模型。

Claude Haiku系列:輕量級(jí)模型,主打快速響應(yīng)和低成本,適用于實(shí)時(shí)交互場(chǎng)景。

基于上述模型,Anthropic開(kāi)發(fā)了AI編程助手Claude Code和辦公場(chǎng)景智能體Claude Cowork。Anthropic的年化營(yíng)收在2025年年底超過(guò)90億美元,其中,Claude Code的年化收入已達(dá)25億美元。

收藏
114.34W
我要評(píng)論
圖片
歡迎您發(fā)表有價(jià)值的評(píng)論,發(fā)布廣告和不和諧的評(píng)論都將會(huì)被刪除,您的賬號(hào)將禁止評(píng)論。
發(fā)表評(píng)論
要聞
股市
關(guān)聯(lián)話題
6.47W 人關(guān)注
2.39W 人關(guān)注
1.55W 人關(guān)注
1.16W 人關(guān)注
關(guān)于我們|網(wǎng)站聲明|聯(lián)系方式|用戶(hù)反饋|網(wǎng)站地圖|友情鏈接|舉報(bào)電話:021-54679377轉(zhuǎn)617舉報(bào)郵箱:editor@cls.cn財(cái)聯(lián)社舉報(bào)
財(cái)聯(lián)社 ?2018-2026上海界面財(cái)聯(lián)社科技股份有限公司 版權(quán)所有滬ICP備14040942號(hào)-9滬公網(wǎng)安備31010402006047號(hào)互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170007滬金信備 [2021] 2號(hào)