DeepSeek再次爆火。
近日,國內(nèi)AI初創(chuàng)公司DeepSeek發(fā)布了新一代大語言模型DeepSeek-V3,同時宣布開源。在多項基準(zhǔn)測試中,V3的成績超越了主流開源模型,并和世界頂尖的閉源模型不分伯仲。
更重要的是,V3的訓(xùn)練成本極低,僅為GPT-4o的二十分之一;售價也低,輸入+輸出價格約為GPT-4o的十分之一。不過其目前不支持多模態(tài)輸入輸出。
DeepSeek是量化資管公司幻方旗下企業(yè),成立于2023年7月。
被冠以“AI界高效低價典范”的DeepSeek,給當(dāng)前的人工智能技術(shù)與發(fā)展路徑提供了一個新的方向,貢獻(xiàn)了AI競賽中的中國力量。
V3不僅在人工智能界產(chǎn)生轟動效應(yīng),也因它的母公司是知名量化基金公司,而在資本市場引發(fā)熱烈討論。
另據(jù)報道,近期小米正在搭建GPU萬卡集群,雷軍親自以千萬年薪挖來了DeepSeek-V2關(guān)鍵開發(fā)人員之一的95后羅福莉,后者被譽(yù)為“AI天才少女”。
DeepSeek的“暴力美學(xué)”
多個實測表明,數(shù)學(xué)基準(zhǔn)(MATH 500)和AIME 2024測試方面,V3超越了當(dāng)前國際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代碼能力(Codeforces 基準(zhǔn)),比國外主流大模型高出約30分;軟件工程(SWE-bench Verified)和知識問答方面,略遜于Claude-3.5-Sonnet。
因此,DeepSeek的技術(shù)論文自豪地宣稱,“綜合評估表明,DeepSeek-V3-Base已經(jīng)成為目前可用的最強(qiáng)大的開源基礎(chǔ)模型,特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型,并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)測試中實現(xiàn)了與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先閉源模型的性能相當(dāng)?!?/p>
更重要的是,這一成就,是在極低的訓(xùn)練成本下取得的。
DeepSeek在其53頁的技術(shù)論文披露:“我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,成本為2664K GPU小時。結(jié)合119K GPU小時的上下文長度擴(kuò)展和5K GPU小時的后訓(xùn)練,DeepSeek-V3的完整訓(xùn)練成本僅為2.788M GPU小時。假設(shè)GPU的租金為每GPU小時2美元,我們的總訓(xùn)練成本僅為557萬美元?!?/p>
Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪此前透露,GPT-4o的模型訓(xùn)練成本約為1億美元。而僅僅是訓(xùn)練一個7B的Llama 2,就要花費(fèi)76萬美元。
也就是說,DeepSeek-V3的訓(xùn)練成本僅為同性能模型的十幾分之一。這讓整個AI界都為之震驚。
據(jù)報道,仍處于研發(fā)過程中的GPT-5,至少已進(jìn)行過兩輪訓(xùn)練,每輪訓(xùn)練耗時數(shù)月,僅一輪計算成本就接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓(xùn)練成本已達(dá)到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資,重要開支之一是將數(shù)據(jù)中心Colossus的規(guī)模擴(kuò)大一倍,GPU數(shù)量達(dá)到20萬顆。
按照這種訓(xùn)練路徑,未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至100億美元甚至上不封頂。正是在這種背景之下,一段時間以來AI界產(chǎn)生了對Scaling law的質(zhì)疑。
GPT-5難產(chǎn),OpenAI轉(zhuǎn)向了另一條發(fā)展路徑:推理模型。并且很快產(chǎn)生成果:令人驚艷的o1推理模型,以及剛發(fā)布的o3推理模型。而o3的卓越表現(xiàn),讓部分專家驚呼,在前往AGI的路上已經(jīng)沒有了障礙。
人工智能初創(chuàng)公司深受啟迪,并緊緊跟隨。前不久剛從硅谷考察回來的零一萬物創(chuàng)始人李開復(fù)說,過去大家覺得預(yù)訓(xùn)練做好就夠了,一年以后(o1出現(xiàn)后)發(fā)現(xiàn)Post train(后訓(xùn)練)也同樣重要。他透露說,很多AI公司都在向推理模型方面發(fā)展,5個月以后會有不少類似o1模型的能力出現(xiàn)在各個模型公司,包括零一萬物,都在往o1方向狂奔。
但DeepSeek-V3的出現(xiàn),提供了新的可能。更短的時間,更高的效率,更低的成本,達(dá)到同等的水平,通用大語言模型的發(fā)展路徑選擇上,貢獻(xiàn)了“中國版本”。
新的變化已經(jīng)發(fā)生
事實上,2024年5月6日,DeepSeek發(fā)布DeepSeek-V2開源MoE模型,就以其高效性能在全球AI界掀起了一波熱度。而其API接口價格與同類產(chǎn)品相比斷崖式定為每百萬tokens輸入1元、輸出2元(32K上下文),僅為GPT-4-Turbo的近百分之一。
“價格屠夫”的殺入,令智譜AI、字節(jié)跳動、阿里云、百度、騰訊云旗下大模型隨后不得不跟進(jìn)降價。而且騰訊和百度宣布幾款大模型產(chǎn)品免費(fèi)。雖然有人將DeepSeek-V2稱為“AI界的拼多多”,但這個比喻不太恰當(dāng),因為二者幾乎沒有共性。
DeepSeek-V3的API定價提高到輸入2元/M tokens,輸出為8元/M tokens(45天的價格優(yōu)惠期后),雖然比V2大幅上漲,但也只相當(dāng)于Claude-3.5-Sonnet費(fèi)用的1/53,后者每百萬tokens輸入3美元、輸出15美元。
根據(jù)記者近兩天對AI從業(yè)者的采訪,DeepSeek-V3的出現(xiàn),為業(yè)界提供了新的啟發(fā)。
其一,大模型研發(fā),存在多種可能的發(fā)展路徑。
ChatGPT走的是大參數(shù)、大算力、大投入的路子,對算力和資金的要求極高,這種資源消耗是絕大多數(shù)創(chuàng)業(yè)公司無法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司,也面臨投資回報的商業(yè)化難題。
推理模型是另一條路子。o1、o3的成果,證明這條路也是可行的。但同樣,它也是建立于相對高昂的算力和資金成本基礎(chǔ)上,尤其是算力。
DeepSeek-V3是第三條路徑。與當(dāng)前大模型訓(xùn)練動輒要求萬卡集成相比,它只用2000張GPU訓(xùn)練,就實現(xiàn)了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果,不能不令人敬佩。
一位在硅谷從事AI研究的華人工程師告訴21世紀(jì)經(jīng)濟(jì)報道記者,不排除還有更多的路徑選擇,比如V3的MLA架構(gòu)、MoESparse結(jié)構(gòu)與o3的推理能力相結(jié)合,可能產(chǎn)生新的大模型范式。如果實現(xiàn),那將是令人驚異的。
其二,人工智能競爭,中國不僅僅是跟隨者,而是正在大幅提升創(chuàng)新能力。
其實V2發(fā)布時,硅谷就驚訝地稱之為“來自東方的神秘力量”。DeepSeek創(chuàng)始人梁文鋒2024年7月在接受媒體采訪時說,硅谷習(xí)慣于將中國AI公司視為follow的角色,當(dāng)一個中國公司以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去,而且表現(xiàn)優(yōu)異時,他們就很震驚。
梁文鋒認(rèn)為,更多的投入并不一定產(chǎn)生更多的創(chuàng)新,否則大廠可以把所有的創(chuàng)新包攬了。研究和技術(shù)創(chuàng)新將永遠(yuǎn)是DeepSeek第一優(yōu)先級。值得注意的是,根據(jù)業(yè)內(nèi)專家測算,DeepSeek在V2、V3上并不虧錢。
V3獲得硅谷一批知名AI大佬的點(diǎn)贊。Lepton AI創(chuàng)始人、阿里巴巴原副總裁賈揚(yáng)清表示,DeepSeek是智慧和實用主義的體現(xiàn):在有限的計算資源和人力條件下,通過聰明的研究產(chǎn)生最好的結(jié)果。這是一句相當(dāng)中肯的評價。
無獨(dú)有偶。宇樹科技近日發(fā)布最新的Unitree B2-W機(jī)器狗產(chǎn)品視頻:托馬斯全旋、側(cè)空翻、360°跳躍轉(zhuǎn)體、2.8米凌空飛躍,甚至能馱著一名成年男子穩(wěn)步行走。這幾天,技術(shù)討論園區(qū)里到處可見對這家前沿中國機(jī)器人企業(yè)的歡呼聲,有評論稱其技能足以“吊打”當(dāng)今最先進(jìn)的機(jī)器人公司波士頓動力。上周還在A股市場掀起了一陣“宇樹科技概念”上漲潮。
其三,創(chuàng)新從來不是單維度、單向度的,AI顛覆式創(chuàng)新正在成為可能。
研發(fā)出ChatGPT的OpenAI確實了不起,它開啟了人工智能的新一輪浪潮。但OpenAI也不是神,也有發(fā)展方向的障礙,有融資的難題,有路徑選擇的猶豫。
過去兩三年,AI界一個流行的看法是,如果說硅谷企業(yè)擅長從0到1,那我們則擅長從1到10,因為中國有寬廣的應(yīng)用市場。但梁文鋒認(rèn)為,當(dāng)前階段仍是AI技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期。
從理性的角度,需要承認(rèn)我們與OpenAI、Anthropic、DeepMind這些世界先進(jìn)AI公司仍存在較大的差距。比如,即使是代表閉源大模型最前沿水平的V3,多項性能表現(xiàn)與GPT-4o相近,那也是后者7個月前的技術(shù)水平;而OpenAI這幾個月已連續(xù)推出o1、o3這類新的“變異”物種。更何況,其他大多數(shù)的模型產(chǎn)品,放在多語言、多模態(tài)的國際視野看,差距要更大。
但這一輪人工智能浪潮之所以更加令人期待,就是因為,它帶來的革命性想象力甚至要超越互聯(lián)網(wǎng)之于傳統(tǒng)經(jīng)濟(jì)的變革力量。正如梁文鋒所說,中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整升級,會更依賴硬核科技的創(chuàng)新。在半導(dǎo)體、大模型等領(lǐng)域,遠(yuǎn)未觸達(dá)技術(shù)天花板,前所未有的機(jī)會在等待著中國企業(yè),那些帶來AI顛覆性創(chuàng)新產(chǎn)品或方案模式的公司,就非??赡艹蔀橄乱粋€偉大的企業(yè)。
前述硅谷華人工程師感慨地說,再偉大的企業(yè),都不敢止步不前,坐享其成。
5年前,誰會想到,英特爾會淪落到傳聞要被收購的命運(yùn)?而今天別看英偉達(dá)如日中天、GPU供不應(yīng)求,但如果量子芯片大規(guī)模商用的時間表大大縮短,或者像V3這樣不再依賴于萬卡集成做訓(xùn)練研發(fā),而它繼續(xù)固守原有發(fā)展路徑,那么所謂的“英偉達(dá)泡沫”提前破滅也是完全可能發(fā)生的。