DeepSeek V4下周上線？原生多模態(tài)架構(gòu) 技術(shù)報告同步開放

原創(chuàng)

2026-03-01 14:56 星期日

科創(chuàng)板日報宋子喬

①這或是一款具備圖片、視頻和文本生成功能的多模態(tài)模型；
②DeepSeek為國產(chǎn)算力提供深度支持；
③DeepSeek將在V4發(fā)布時同步放出一份簡短的技術(shù)說明。

《科創(chuàng)板日報》3月1日訊（編輯宋子喬） 當?shù)貢r間2月28日，據(jù)金融時報報道，DeepSeek將于下周發(fā)布其最新的大模型V4。

據(jù)兩位知情人士透露，這是一款具備圖片、視頻和文本生成功能的多模態(tài)模型。在硬件適配方面，DeepSeek為國產(chǎn)算力提供深度支持，DeepSeek致力于優(yōu)化V4模型以適配中國制造的芯片，此舉有望提振中國市場對其半導(dǎo)體產(chǎn)品的需求，并加速AI模型“推理”環(huán)節(jié)靠攏本土芯片。

據(jù)一位直接了解相關(guān)計劃的人士透露，DeepSeek預(yù)計在發(fā)布V4版本的同時，發(fā)布一份篇幅較短的技術(shù)說明，并在大約一個月后發(fā)布一份更全面的報告。

V4會有哪些亮點？

截至發(fā)稿，DeepSeek官方尚未對V4的任何信息進行正式回應(yīng)或確認，所有信息均來媒體爆料，詳細信息多集中在正在進行秘密測試的簡化版本V4 Lite（精簡版）上。據(jù)《科創(chuàng)板日報》綜合的消息，關(guān)于V4 Lite：

其代號為“sealion-lite”，擁有100萬（1M）個tokens的上下文窗口，相比V3系列的128K有近8倍提升，理論上可一次處理如《三體》全集體量的長文本；

為原生多模態(tài)架構(gòu)，意味著模型從預(yù)訓(xùn)練階段就將文本與視覺理解融合，而非后期拼接；

V4 Lite參數(shù)規(guī)模估算為2000億，另有猜測認為完整版V4參數(shù)量可能突破1萬億；

效果顯著優(yōu)于網(wǎng)頁端/APP端模型；

泄露的測試示例顯示，V4 Lite能用極簡代碼（如54行）生成高質(zhì)量的SVG圖像（如Xbox手柄），在代碼優(yōu)化和視覺還原度上被認為超越了DeepSeek V3.2、Claude Opus 4.6等模型，這暗示了其空間推理和結(jié)構(gòu)化輸出能力的提升。

回顧DeepSeek的模型迭代之路

DeepSeek已“蟄伏”超一年，其上次重大更新——R1發(fā)布于2025年1月20日。

回顧DeepSeek的模型迭代之路，該公司的優(yōu)化路徑十分清晰——提升推理能力、平衡模型性能與推理效率，為大模型“降本”。

DeepSeek已發(fā)布的主要模型是兩條技術(shù)路線的代表：追求極致綜合性能的V系列“全能助手”和專注于復(fù)雜推理的R系列“解題專家”。

2024年5月，DeepSeek V2發(fā)布，被視作DeepSeek的首次重大突破，其研究團隊提出了多頭潛在注意力（MLA）機制，大幅降低推理時的顯存占用和成本，以極低的推理費用出圈，確立了混合專家模型（MoE）的技術(shù)路線。

2024年12月推出的V3是DeepSeek的重要里程碑，其高效的MoE架構(gòu)確立了強大的綜合性能基礎(chǔ)。此后，V3系列通過小版本更新不斷打磨，不斷提升用戶體驗和模型Agent能力??。

其中，2025年8月發(fā)布的DeepSeek-V3.1，是一個里程碑式的更新，首次將V3和R1的能力融合到一個模型中，支持思考模式和非思考模式的自由切換，在SWE-bench等基準上比前代提升超40%；2025年12月推出的V3.2，是DeepSeek首個將深度思考與工具使用無縫融合的版本，推理能力達到GPT-5水平，在H800集群上，128K序列長度的推理成本顯著降低：預(yù)填充階段每百萬token成本從0.7美元降至0.2美元，解碼階段從2.4美元降至0.8美元，這一定價使其成為當時同級別模型中長文本推理成本最低的選擇之一。

2025年1月發(fā)布的R1，是其首代專用推理模型，首次證明通過大規(guī)模強化學(xué)習(xí)（RL）能激發(fā)模型的推理能力，通過強化學(xué)習(xí)，該模型在解決數(shù)學(xué)問題、代碼編程等復(fù)雜推理任務(wù)上表現(xiàn)卓越，并首創(chuàng)了“深度思考”模式，性能對標OpenAI最強模型o1，但推理成本（僅為約560萬美元）不到其十分之一。

可以看出，在大家等待V4期間，DeepSeek一直沒有停下腳步，另外，其在多模態(tài)能力上的布局比V4更早。從技術(shù)演進來看，DeepSeek早在2023年的V3系列和2024年的V2版本中就已經(jīng)開始布局和實現(xiàn)多模態(tài)能力。2025年初發(fā)布的Janus系列更是專門的、功能強大的多模態(tài)模型。

閱103.77W

我要評論

反饋意見