亚洲av综合色区无码一区偷拍 ,台湾中文无码专区一区

2025年第一個(gè)月，國產(chǎn)o1類模型開始密集更新，發(fā)布者包括“六小虎”中的月之暗面、階躍星辰，以及獨(dú)立于創(chuàng)業(yè)公司格局外的DeepSeek。

1月20日，DeepSeek正式發(fā)布性能對齊OpenAI-o1正式版的DeepSeek-R1，并同步開源模型權(quán)重。

根據(jù)DeepSeek披露的測試結(jié)果，它在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上與OpenAI-o1-1217基本持平，尤其在AIME 2024（美國數(shù)學(xué)邀請賽）、MATH-500、SWE-Bench Verified（軟件開發(fā)領(lǐng)域測試集）三項(xiàng)測試集上以微弱優(yōu)勢取勝。

作為對R1能力的一種驗(yàn)證，由660B版本R1蒸餾得到的多個(gè)小尺寸模型中，32B和70B兩款模型在多項(xiàng)能力上能夠與OpenAI o1-mini對標(biāo)。并且，這些蒸餾模型分屬Q(mào)wen系列和Llama系列，其中，14B Qwen系列蒸餾模型，其各項(xiàng)推理類測試集表現(xiàn)已經(jīng)明顯好于QwQ-32B-Preview。

需要指出的是，DeepSeek還同步開源了DeepSeek-R1-Zero，這是一個(gè)僅在預(yù)訓(xùn)練基礎(chǔ)上加入了RL（強(qiáng)化學(xué)習(xí)）而沒有經(jīng)過SFT（監(jiān)督微調(diào)）的成果。

由于沒有人類監(jiān)督數(shù)據(jù)介入，R1-Zero在生成上可能存在可讀性較差、語言混雜的現(xiàn)象，但該模型仍然足以對標(biāo)OpenAI-o1-0912。此外，它更重要的意義是側(cè)重于探索僅通過強(qiáng)化學(xué)習(xí)訓(xùn)練大語言模型以獲得推理能力的技術(shù)可能性，為相關(guān)后續(xù)研究提供了重要基礎(chǔ)。

定價(jià)方面，DeepSeek延續(xù)了“AI大模型界拼多多”的身份標(biāo)簽。DeepSeek-R1 API服務(wù)定價(jià)為每百萬輸入tokens 1元（緩存命中）/ 4元（緩存未命中），每百萬輸出tokens為16元。這番價(jià)格中，其緩存命中的輸入token價(jià)格不足OpenAI o1的2%，緩存未命中的輸入價(jià)格及輸出價(jià)格也僅為o1的3.6%。

另一個(gè)與DeepSeek-R1顯得針鋒相對的推理類模型，是月之暗面于同一天發(fā)布的K1.5。

從去年11月開始，月之暗面已經(jīng)更新了k0-math數(shù)學(xué)模型、k1視覺思考模型等加入了強(qiáng)化學(xué)習(xí)的k系列模型。k1.5按照模態(tài)思路推進(jìn)，是一個(gè)多模態(tài)思考模型。

月之暗面給k1.5的定位是“多模態(tài)o1”。簡單而言，k1.5同時(shí)包含多模態(tài)的通用能力和推理能力。

據(jù)官方數(shù)據(jù)，其Short-CoT（可理解為短思考）模式下的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力，對標(biāo)GPT-4o和Claude 3.5 Sonnet；Long-CoT（可理解為長思考）模式下的數(shù)學(xué)、代碼、多模態(tài)推理能力，則達(dá)到了OpenAI o1正式版水平。

就R1和k1.5的訓(xùn)練方式而言，二者都采用了強(qiáng)化學(xué)習(xí)、多階段訓(xùn)練、思維鏈以及獎勵模型。從公開信息看來，其不同環(huán)節(jié)存在各自的技術(shù)策略。

DeepSeek利用了數(shù)千條長CoT冷啟動數(shù)據(jù)，先是對DeepSeek-V3-Base這一基礎(chǔ)模型進(jìn)行微調(diào)。隨后進(jìn)行面向推理的大規(guī)模RL訓(xùn)練，并引入語言一致性獎勵克服語言混雜問題。經(jīng)歷監(jiān)督微調(diào)（SFT）之后，又進(jìn)行適用于所有場景的強(qiáng)化學(xué)習(xí)，對推理數(shù)據(jù)和一般數(shù)據(jù)采用不同的獎勵規(guī)則。

另外，R1在強(qiáng)化學(xué)習(xí)中加入了組相對策略優(yōu)化算法（Group Relative Policy Optimization，GRPO），從效果上來說，它能夠優(yōu)化策略、提高樣本效率和增強(qiáng)算法穩(wěn)定性等。

k1.5一方面將強(qiáng)化學(xué)習(xí)的上下文窗口擴(kuò)展到128k，另一方面采用在線鏡像下降的變體進(jìn)行穩(wěn)健的策略優(yōu)化，兩者相結(jié)合讓k1.5能夠建立一個(gè)相對簡潔的強(qiáng)化學(xué)習(xí)框架，在不加入蒙特卡洛樹搜索、價(jià)值函數(shù)和過程獎勵模型等更復(fù)雜技術(shù)的情況下，也能夠保證性能。

需要指出的是，k1.5在強(qiáng)化學(xué)習(xí)中還加入了“長度懲罰”來抑制響應(yīng)長度，即確立一個(gè)公式，根據(jù)響應(yīng)長度和確定性來分配獎勵值。此外它還采用了“最短拒絕采用方法”（選擇最短的正確響應(yīng)進(jìn)行監(jiān)督微調(diào)）等方法來抑制響應(yīng)長度。

k1.5的另一個(gè)特點(diǎn)是對文本和視覺數(shù)據(jù)進(jìn)行了聯(lián)合訓(xùn)練，這使其具備多模態(tài)能力。不過Kimi也承認(rèn)，由于部分輸入主要支持文本格式，其面對部分幾何圖題的圖形理解能力還不夠強(qiáng)大。

在此之前，階躍星辰也于1月16日上線了Step Reasoner mini（下稱“Step R-mini”）實(shí)驗(yàn)版。這也是一款具備超長推理能力的推理模型。

但它還未完全準(zhǔn)備好的是，目前在測試集中主要對標(biāo)OpenAI o1-preview和o1-mini，而非o1完整版，當(dāng)然這應(yīng)該也與模型大小和訓(xùn)練方式有關(guān)。在國內(nèi)對標(biāo)模型上，其表現(xiàn)與QwQ-32B-Preview相近。

不過，階躍星辰強(qiáng)調(diào)其“文理兼顧”，使用了On-Policy（同策略）強(qiáng)化學(xué)習(xí)算法，在保證數(shù)學(xué)、代碼、邏輯推理能力的同時(shí)，也能夠完成文學(xué)內(nèi)容創(chuàng)作和日常聊天的任務(wù)。

至此，從去年9月OpenAI以o1模型變革模型訓(xùn)練范式之后，各家大模型公司開始兌現(xiàn)當(dāng)時(shí)的行業(yè)預(yù)期，形成了一定規(guī)模的國產(chǎn)o1類模型跟進(jìn)潮。

但在所有玩家密切跟進(jìn)o1的同時(shí)，OpenAI又在去年12月的發(fā)布季上讓o3和o3-mini一同亮相。盡管還沒有正式上線，但從OpenAI披露的數(shù)據(jù)來看，o3的性能相比o1又猛長了一大截。

例如，在SWE-Bench Verified這一軟件開發(fā)測試集中，o3得分71.7%，而o1僅有48.9%；在AIME2024測試集中，o3準(zhǔn)確率96.7%，而o1為83.3%。o3的一些表現(xiàn)，已經(jīng)開始展現(xiàn)AGI（通用人工智能）的初步特征。

當(dāng)然，o3也存在自己的問題。一方面，o系列模型普遍更擅長邊界清晰、定義明確的任務(wù)，對部分現(xiàn)實(shí)世界的工程任務(wù)處理還存在欠缺。另一方面，近期，o3在FrontierMath這項(xiàng)數(shù)學(xué)基準(zhǔn)測試中，也因OpenAI資助過相關(guān)機(jī)構(gòu)而面臨提前獲取真題的真實(shí)能力水平質(zhì)疑。

但擺在國內(nèi)大模型公司面前的共同問題仍然是明確的。從技術(shù)上來說，無論是DeepSeek-R1還是k1.5，都還沒有成功加入過程獎勵模型和蒙特卡洛樹搜索等更復(fù)雜技術(shù)，而這是否是模型進(jìn)一步提高推理能力的關(guān)鍵方法，我們還無從得知。

另外，從o1到o3，OpenAI公布的間隔時(shí)間僅有三個(gè)月，這意味著強(qiáng)化學(xué)習(xí)帶來的推理階段scaling up的技術(shù)范式，顯然比GPT系列模型以年為單位的預(yù)訓(xùn)練范式的節(jié)奏要快。

這是國內(nèi)大模型公司共同要面對的競爭壓力。OpenAI不僅找到了更明確的技術(shù)路徑，并且有足夠的資源快速驗(yàn)證并推進(jìn)。當(dāng)下，國內(nèi)大模型行業(yè)將比過去更需要加速提效的突破式創(chuàng)新。

責(zé)任編輯：陳勇洲

機(jī)構(gòu)

拼多多

人工智能

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號，即可隨時(shí)了解股市動態(tài)，洞察政策信息，把握財(cái)富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場

暫無評論

為你推薦

同股不同命，這類基金頻頻清盤！

券商中國許諾 2025-01-24 14:27
突發(fā)！小米汽車，召回超30000輛SU7！

證券時(shí)報(bào)·e公司 2025-01-24 16:19
220輪競價(jià)！溢價(jià)超70%，杭州拍出“新地王”！

證券時(shí)報(bào)網(wǎng) 李小平 2025-01-24 16:19
傅鵬博、謝治宇、趙楓……多位明星基金經(jīng)理調(diào)倉曝光

券商中國陳書玉 2025-01-24 12:53
突然爆發(fā)！A股這個(gè)板塊，集體拉升

證券時(shí)報(bào)網(wǎng) 毛軍 2025-01-24 12:17
牛股突變！昨天跌停，今天“地天板”，強(qiáng)勢7天6漲停！

證券時(shí)報(bào)網(wǎng) 梅雙 2025-01-24 16:18

亚洲网中文字幕_亚洲开心激情在线_欧美日韩中文精品在线_日本乱中文字幕在线系列