春節(jié)前,國內(nèi)大模型迎來一波密集更新。
1月20日上午,MiniMax海螺上線了語音功能,同日下午,字節(jié)豆包上線實時語音大模型。1月20日晚,DeepSeek發(fā)布了DeepSeek-R1模型,一個多小時后,月之暗面Kimi就推出k1.5多模態(tài)思考模型,兩家都稱新模型性能對標(biāo)OpenAI o1正式版。
以上更新既包括追趕OpenAI o1系列推理模型,又包括追趕OpenAI的實時語音功能。 1月21日,騰訊則開源了混元3D生成大模型2.0,指向另一個方向3D生成大模型,面向游戲、具身智能等領(lǐng)域的大模型應(yīng)用。同一天,一直強調(diào)應(yīng)用的百度開啟“自由畫布”應(yīng)用的公測,百度副總裁王穎透露,百度文庫AI功能MAU(月活躍用戶)已突破9000萬。更新的同時,一些大模型企業(yè)透露了后續(xù)迭代方向。這些大模型企業(yè)年初釋放的信號可能指明了今年大模型領(lǐng)域的競爭方向。
拉近與OpenAI的差距
一名國內(nèi)頭部大模型廠商研發(fā)人員看過Kimi k1.5和DeepSeek-R1的報告后,告訴第一財經(jīng)記者,這兩個模型更新與OpenAI o1系列的長思維鏈推理方向大致一致,但技術(shù)方案可能不完全相同,畢竟OpenAI沒有詳細(xì)透露o1的做法。這類模型的迭代要點還在于技術(shù)指標(biāo)提升,不在于功能開發(fā)。
當(dāng)前,并非所有國內(nèi)頭部大模型廠商都已經(jīng)追趕上o1的能力,但最新更新的兩個模型在一些能力上追上了o1。月之暗面稱,在long-CoT(長鏈思維)模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力達到長思考SOTA(某領(lǐng)域性能最優(yōu)、最先進)模型o1正式版的水平,這是OpenAI之外的公司首次實現(xiàn)o1正式版的多模態(tài)推理性能。Kimi是在去年11月發(fā)布k0-math數(shù)學(xué)模型、12月發(fā)布k1視覺思考模型后再一次更新k系列模型。
DeepSeek則表示,DeepSeek-R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能比肩o1正式版,且該模型的API服務(wù)定價為每百萬tokens輸入 1元(緩存命中)、每百萬tokens 輸出16元,遠(yuǎn)低于o1的55元、438元。
相對閉源的OpenAI o1,這兩家大模型公司對新模型的態(tài)度相對開放。Kimi首次公開了模型訓(xùn)練技術(shù)報告,DeepSeek-R1上線API接口的同時也開源了模型權(quán)重。從發(fā)布時間看,國內(nèi)大模型公司與OpenAI的技術(shù)差距可能縮短至1個多月。當(dāng)?shù)貢r間2024年12月18日,OpenAI推出了正式版o1模型,取代了去年9月發(fā)布的預(yù)覽版o1-preview,目前距離o1正式版發(fā)布只有1個多月時間。
一些學(xué)術(shù)界人士認(rèn)為,新推出的模型代表了業(yè)界先進水平。加利福尼亞大學(xué)伯克利分校教授Alex Dimakis表示,跟他交流過的多數(shù)AI研究人員都對DeepSeek-R1的性能感到有些震驚,DeepSeek似乎是奔赴OpenAI最初使命的“最佳人選”,其他公司需要迎頭趕上?!拔覀兩钤谶@樣一個時代,一家非美國公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。DeepSeek-R1可能是第一個展示了RL(強化學(xué)習(xí))飛輪可發(fā)揮作用且能帶來持續(xù)增長的OSS(開源軟件)項目?!庇ミ_高級研究科學(xué)家Jim Fan表示。
發(fā)布新模型的同時,月之暗面透露了下一步迭代方向,稱Kimi會繼續(xù)升級k系列強化學(xué)習(xí)模型,帶來更多模態(tài)、更多領(lǐng)域的能力和更強的通用能力。
語音方面,OpenAI去年5月發(fā)布可實時語音交互的4o模型,9月向ChatGPT訂閱用戶開放高級語音模式。MiniMax和字節(jié)豆包的語音功能上線距離OpenAI開放高級語音模式則是近4個月時間。
尋找新方向
1月21日下午,騰訊混元開源了3D生成大模型2.0版本,該大模型支持文生、圖生3D的能力,混元同時上線了3D內(nèi)容AI創(chuàng)作平臺混元3D AI創(chuàng)作引擎。
與OpenAI等大模型廠商在大語言模型領(lǐng)域推進長思維鏈推理、多模態(tài)交互的方向不同,3D生成大模型針對的是3D資產(chǎn)生成,面向游戲制作、電商廣告、工業(yè)制造、具身智能等領(lǐng)域,騰訊等企業(yè)正在探索這個方向。據(jù)介紹,混元3D生成能力已用于騰訊內(nèi)部游戲業(yè)務(wù),可讓3D資產(chǎn)制作時間成本由5~10天級別下降至分鐘級,同時也用于騰訊地圖的3D導(dǎo)航車標(biāo)自定義。
3D生成大模型應(yīng)用后續(xù)可能還會擴大。此前記者了解到,游戲美術(shù)領(lǐng)域AI生成2D資產(chǎn)的技術(shù)較成熟,3D技術(shù)還需要進一步成熟。就AI在游戲領(lǐng)域的實際使用情況,騰訊游戲在研項目制作人王智剛告訴記者,他負(fù)責(zé)的項目在提高AI于制作管線中的滲透率,使用AI輔助后,制作一個游戲圖標(biāo)的時間已從一兩天降到幾十秒,成本從幾百元降到幾分錢,目前2D環(huán)節(jié)原畫都會用AI生圖,3D生成大模型技術(shù)也在提升3D資產(chǎn)制作效率。目前3D生成大模型技術(shù)可以應(yīng)用到休閑游戲,但他判斷,隨著技術(shù)優(yōu)化,用于偏寫實的游戲項目后續(xù)也將可行。
騰訊混元3D負(fù)責(zé)人郭春超則介紹,很多具身智能機器人團隊已經(jīng)找到混元,希望獲得接口來生成機器人仿真環(huán)境中的3D資產(chǎn),也有一些自動駕駛公司希望用3D生成大模型來生成數(shù)據(jù)。
從技術(shù)可提升空間看,郭春超表示,業(yè)界有關(guān)于大語言模型Scaling Law(縮放定律)是否失效的討論,但3D領(lǐng)域距離Scaling Law觸碰天花板還有很遠(yuǎn),原因在于3D領(lǐng)域數(shù)據(jù)量不多,可能只是千萬tokens級別,而文本領(lǐng)域的數(shù)據(jù)是T(千億)級別,圖片是百億量級。
不過,3D生成大模型領(lǐng)域也存在挑戰(zhàn)。郭春超告訴記者,最大的技術(shù)挑戰(zhàn)在于數(shù)據(jù)量不足。從成熟度看,3D和視頻大模型還沒有到達充分的拐點,仍處于前半賽程。
“就3D大模型技術(shù)發(fā)展的最終形態(tài),業(yè)界分歧非常大,包括世界模型是什么也沒有明確的定義,目前主要流派包括Sora純視頻生成、谷歌Genie 2可交互視頻生成、World Lab世界模型等,各種流派各有優(yōu)缺點?!?郭春超表示,關(guān)于3D生成大模型下一步往什么方向迭代,團隊一直在思考,方向包括從生成3D人物或物體延伸到生成3D場景等,但至于一年后是何種形態(tài),目前還難以預(yù)料。