亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

      • 行业咨询
      • 品牌营销
      • 集微资讯
      • 知识产权
      • 集微职场
      • 集微投融资
      • 集微企业库
      搜索
      爱集微APP下载

      扫码下载APP

      爱集微APP扫码下载
      集微logo
      资讯集微报告舆情JiweiGPT企业洞察
      集微视频
      登录登录
      bg_img
      search_logo
      大家都在搜

      DeepSeek顛覆了什么?——大模型“國(guó)產(chǎn)之光”破局的啟示

      作者: 集小微 02-07 11:11
      相關(guān)輿情 AI解讀 生成海報(bào)
      來(lái)源:新華網(wǎng) #DeepSeek# #低成本# #AI創(chuàng)新#
      1w

      一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀,即掀起全球科技界的一陣“海嘯”。

      短短30天,中國(guó)初創(chuàng)企業(yè)深度求索(DeepSeek)先后發(fā)布兩款性能比肩GPT-4o的大模型,“1/18的訓(xùn)練成本、1/10的團(tuán)隊(duì)規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

      最新一期《經(jīng)濟(jì)學(xué)人》封面文章第一時(shí)間讓位給這一土生土長(zhǎng)的國(guó)產(chǎn)大模型:《低成本中國(guó)模型的成功動(dòng)搖美國(guó)科技優(yōu)勢(shì)》。很快,華爾街也同樣感受到了這種被動(dòng)搖的震感。

      事實(shí)上,這匹黑馬的貢獻(xiàn)絕非“低成本”這一個(gè)標(biāo)簽所能概括。它不僅重新定義了大模型的生產(chǎn)函數(shù),還將重新定義計(jì)算。

      不論開源與閉源未來(lái)的優(yōu)勢(shì)如何,這股沖擊波都將迫使全球科技界重新思考:當(dāng)“規(guī)模定律”與“生態(tài)壁壘”不再絕對(duì),什么才是下一賽季AI競(jìng)爭(zhēng)的核心?或許我們能從中獲得新的啟示。

      擊穿三大定式

      1月下旬,DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品。具體而言,它顛覆了什么?

      ——打破“越強(qiáng)越貴”的成本詛咒

      價(jià)格感人是讓DeepSeek快速出圈的第一個(gè)標(biāo)簽。DeepSeek-R1的API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬(wàn)輸出tokens 16元,而o1模型上述三項(xiàng)服務(wù)的定價(jià)分別是55元、110元、438元。

      凡是使用過(guò)幾款大模型的用戶很快就能形成這樣一個(gè)共識(shí):就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問(wèn)題之前還能給出它的推理過(guò)程和思考鏈路。AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人Deedy對(duì)比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長(zhǎng)、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時(shí)間遭到猛烈質(zhì)疑。

      然而在過(guò)去,大模型服務(wù)是標(biāo)準(zhǔn)的“一分錢一分貨”,想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費(fèi)用,以覆蓋整個(gè)模型訓(xùn)練過(guò)程中更高算力成本的支出。

      ——超越“性能-成本-速度”的不可能三角

      當(dāng)硅谷仍在為GPU萬(wàn)卡集群豪擲千億資金時(shí),一群土生土長(zhǎng)的中國(guó)年輕人用557.6萬(wàn)美元證明:AI大模型的比拼或許并不只靠規(guī)模,更重要的是看實(shí)際效果。有句話形象地概括出DeepSeek的優(yōu)勢(shì):“不是GPT用不起,而是DeepSeek更具性價(jià)比?!?/p>

      傳統(tǒng)模型訓(xùn)練,需要在性能、成本、速度之間權(quán)衡,其高性能的獲得,需要極高的成本投入、更漫長(zhǎng)的計(jì)算時(shí)間。而DeepSeek重構(gòu)了大模型的“成本-性能”曲線,同時(shí)壓縮了計(jì)算周期。

      根據(jù)DeepSeek技術(shù)報(bào)告,DeepSeek-V3模型的訓(xùn)練成本為557.6萬(wàn)美元,訓(xùn)練使用的是算力受限的英偉達(dá)H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓(xùn)練成本超過(guò)6000萬(wàn)美元,而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元,且使用的是性能更加優(yōu)異的英偉達(dá)H100 GPU集群。而使用過(guò)程中,DeepSeek給出反饋的時(shí)長(zhǎng)也大部分控制在5秒至35秒之間,通過(guò)算法輕量化、計(jì)算效率最大化、資源利用率優(yōu)化,成功壓縮了計(jì)算時(shí)間,降低了延遲。

      ——走出“參數(shù)膨脹”陷阱

      ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學(xué)”路線,參數(shù)越“煉”越大,給算力、數(shù)據(jù)、能耗帶來(lái)了極大壓力。很長(zhǎng)一段時(shí)間,參數(shù)幾乎成為大模型廠商比拼的最大焦點(diǎn)。

      而另辟蹊徑的DeepSeek恰巧處于對(duì)角線的另一端:并不盲目追求參數(shù)之大,而是選擇了一條通過(guò)探索更高效訓(xùn)練方法以實(shí)現(xiàn)性能提升的“小而精”路線,打破了“參數(shù)膨脹”的慣性。

      例如DeepSeek-R1(4B參數(shù))在數(shù)學(xué)推理、代碼生成等任務(wù)上具有比肩70B參數(shù)模型(如Llama-2)的能力,通過(guò)算法優(yōu)化、數(shù)據(jù)質(zhì)量提升,小參數(shù)模型一樣能實(shí)現(xiàn)高性能,甚至能夠“四兩撥千斤”。

      實(shí)現(xiàn)三大躍升

      “DeepSeek出圈,很好地證明了我們的競(jìng)爭(zhēng)優(yōu)勢(shì):通過(guò)有限資源的極致高效利用,實(shí)現(xiàn)以少勝多。中國(guó)與美國(guó)在AI領(lǐng)域的差距正在縮小。”面壁智能首席科學(xué)家劉知遠(yuǎn)說(shuō)。

      算力封鎖下的有力破局,得益于DeepSeek技術(shù)架構(gòu)、數(shù)據(jù)策略、工程實(shí)踐三方面的關(guān)鍵突破。

      ——技術(shù)架構(gòu):重新定義參數(shù)效率

      大模型的千億參數(shù)不應(yīng)是冰冷的數(shù)字堆砌,而應(yīng)是巧奪天工般地重組整合。

      傳統(tǒng)大模型Transformer架構(gòu)好比一條承載車輛的高速公路,當(dāng)車輛(數(shù)據(jù))數(shù)量足夠多的時(shí)候,每輛車必須和前后所有車溝通完成才能繼續(xù)行駛(計(jì)算),導(dǎo)致堵車(計(jì)算慢、能耗高)。而DeepSeek創(chuàng)新的架構(gòu)則把一條串行的高速路,變成了一個(gè)輻射狀的快遞分揀中心,先把貨物(數(shù)據(jù))按類型分類打包,再分不同路線同時(shí)出發(fā)開往不同目的地,每輛貨車(計(jì)算)只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

      ——數(shù)據(jù)策略:質(zhì)量驅(qū)動(dòng)的成本控制

      DeepSeek研發(fā)團(tuán)隊(duì)相信,用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”,能使訓(xùn)練更具效率。

      傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場(chǎng)隨便采撿,常有價(jià)值不高的爛菜葉(低質(zhì)量數(shù)據(jù))。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術(shù),有針對(duì)性地篩選掉質(zhì)量不高的爛菜葉:一方面自動(dòng)識(shí)別高價(jià)值數(shù)據(jù)片段(如代碼邏輯推理鏈),相比隨機(jī)采樣訓(xùn)練效率提升3.2倍,另一方面通過(guò)對(duì)抗訓(xùn)練生成合成數(shù)據(jù),將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個(gè)tokens的0.8元降低至0.12元。

      ——工程實(shí)踐:架起“超級(jí)工廠”流水線

      大模型傳統(tǒng)的訓(xùn)練方式好比手工造車,一次只能裝配一臺(tái),效率低下。而DeepSeek的3D并行相當(dāng)于一方面通過(guò)流水線并行把造車流程拆分為10個(gè)步驟,同時(shí)組裝10輛車(數(shù)據(jù)分塊處理),另一方面通過(guò)張量并行,把發(fā)動(dòng)機(jī)拆成零件,分給10個(gè)工廠同時(shí)生產(chǎn)(模型分片計(jì)算)。

      至于推理過(guò)程,傳統(tǒng)模型好比現(xiàn)點(diǎn)現(xiàn)做的餐廳,客戶等菜時(shí)間長(zhǎng),推理過(guò)程慢。而DeepSeek采用的INT4量化,能把復(fù)雜菜品提前做成預(yù)制菜,加熱(計(jì)算)時(shí)間減半,口味損失不到5%,實(shí)現(xiàn)了大模型的低成本工業(yè)化。

      超越技術(shù)的啟示

      拆解DeepSeek的成功公式不難發(fā)現(xiàn),通過(guò)底層架構(gòu)創(chuàng)新降低AGI成本,同時(shí)以開源策略構(gòu)建生態(tài)護(hù)城河,提供了中小型機(jī)構(gòu)突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術(shù)的啟示。

      一直以來(lái),驅(qū)動(dòng)DeepSeek的目標(biāo)并非利潤(rùn)而是使命?!疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡(jiǎn)且清爽的組織架構(gòu)。

      一名人工智能科學(xué)家表示,在人工智能大模型領(lǐng)域,大廠、高校、傳統(tǒng)科研機(jī)構(gòu)、初創(chuàng)公司在資源稟賦上其實(shí)各有優(yōu)勢(shì),但結(jié)構(gòu)性的局限很難扭轉(zhuǎn)。DeepSeek這種類型的初創(chuàng)公司能很好地彌補(bǔ)其中的一個(gè)缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團(tuán)隊(duì)扁平化組織機(jī)制帶來(lái)的絲滑流暢的協(xié)作度。

      據(jù)不具名人士透露,其V3模型的關(guān)鍵訓(xùn)練架構(gòu)MLA就源于一位年輕研究員的個(gè)人興趣,經(jīng)過(guò)研判后DeepSeek組建了專項(xiàng)團(tuán)隊(duì)開展大規(guī)模驗(yàn)證與攻關(guān)。而R1模型果斷調(diào)整強(qiáng)化學(xué)習(xí)路線,領(lǐng)先于其他機(jī)構(gòu)實(shí)現(xiàn)了近似o1的推理能力,核心原因之一也歸功于其青年團(tuán)隊(duì)對(duì)前沿技術(shù)的敏銳嗅覺與大膽嘗試。

      “我們創(chuàng)新缺少的不是資本,而是信心,以及組織高密度人才的能力,調(diào)動(dòng)他們高效地進(jìn)行創(chuàng)造力與好奇心驅(qū)動(dòng)的創(chuàng)新。”DeepSeek創(chuàng)始人梁文鋒說(shuō)。

      在DeepSeek身上,我們看到了皮克斯動(dòng)畫工作室的影子。這個(gè)年輕的中國(guó)初創(chuàng)企業(yè)與那個(gè)創(chuàng)作27部長(zhǎng)片有19部獲得奧斯卡最佳動(dòng)畫、同樣以創(chuàng)新為鮮明標(biāo)簽的組織,有著不謀而合的組織機(jī)制與范式選擇,以及由此帶來(lái)的高企的創(chuàng)新成功率與人才留存率。

      不同于先發(fā)者略顯封鎖的護(hù)城堡壘,DeepSeek贏得贊譽(yù)的還有它的開源路線。將代碼、模型權(quán)重和訓(xùn)練日志全部公開,不僅需要格局,更需要勇氣與實(shí)力。

      “在顛覆性技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無(wú)法阻止被別人趕超?!绷何匿h這樣解釋選擇開源的原因,“開源、發(fā)論文,其實(shí)并不會(huì)失去什么。對(duì)于技術(shù)人員來(lái)說(shuō),被follow(追隨模仿)是很有成就感的事?!?/p>

      從技術(shù)到愿景,DeepSeek堅(jiān)定選擇的始終是一條難且正確的路。這也是為什么,即便別國(guó)在人工智能領(lǐng)域已坐享先發(fā)優(yōu)勢(shì),后發(fā)者依然有機(jī)會(huì)憑借技術(shù)創(chuàng)新、成本革命打破大模型競(jìng)爭(zhēng)的傳統(tǒng)邏輯,打破人工智能行業(yè)競(jìng)爭(zhēng)格局,打破“他國(guó)更擅長(zhǎng)從0到1的原始創(chuàng)新,而中國(guó)更擅長(zhǎng)從1到10的應(yīng)用創(chuàng)新”的成見,重塑競(jìng)爭(zhēng)優(yōu)勢(shì)的奧秘。

      北京時(shí)間2月1日凌晨,在OpenAI發(fā)布其推理系列最新模型o3-mini時(shí),我們從中看到了一個(gè)熟悉的字眼:“Deep research”。這是否是國(guó)產(chǎn)之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創(chuàng)新基因的制勝之道。

      正如梁文鋒此前接受采訪時(shí)所說(shuō),“中國(guó)要逐步成為貢獻(xiàn)者,而不是一直‘搭便車’。”(記者 張漫子)

      【責(zé)任編輯:冉曉寧】

      責(zé)編: 集小微
      來(lái)源:新華網(wǎng) #DeepSeek# #低成本# #AI創(chuàng)新#
      分享至:
      THE END
      相關(guān)推薦
      • DeepSeek發(fā)布Prover-V2模型 參數(shù)量達(dá)6710億

      • 寶馬:將把DeepSeek AI整合到中國(guó)市場(chǎng)新車型中

      • 工信部:1-2月5G手機(jī)出貨量4161.9萬(wàn)部,國(guó)產(chǎn)品牌占比85%

      • 美國(guó)突祭禁令!英偉達(dá)未預(yù)警客戶 中國(guó)H20訂單恐全數(shù)泡湯

      • 我們?yōu)槭裁慈匀恍枰f(wàn)卡集群?——管窺“后DeepSeek時(shí)代”算力芯片市場(chǎng)的變與不變

      • DeepSeek聯(lián)合清華大學(xué)發(fā)表論文 旨在提高AI模型效率

      评论

      文明上网理性发言,请遵守新闻评论服务协议

      登录参与评论

      0/1000

      提交内容
        没有更多评论
      集小微

      微信:

      郵箱:


      3850文章總數(shù)
      5449.3w總瀏覽量
      最近發(fā)布
      • 英美就關(guān)稅貿(mào)易協(xié)議條款達(dá)成一致

        1小時(shí)前

      • LG電子在印度開建第三座制造工廠,未來(lái)4年將投資約6億美元

        3小時(shí)前

      • 零一萬(wàn)物聯(lián)創(chuàng)戴宗宏離職創(chuàng)業(yè),獲得創(chuàng)新工場(chǎng)投資

        3小時(shí)前

      • 證監(jiān)會(huì)主席吳清:人工智能引領(lǐng)科技產(chǎn)業(yè)浪潮

        3小時(shí)前

      • 韓國(guó)請(qǐng)求美國(guó)免除對(duì)進(jìn)口半導(dǎo)體征收的潛在關(guān)稅,警告將產(chǎn)生負(fù)面影響

        4小時(shí)前

      最新資訊
      • 英美就關(guān)稅貿(mào)易協(xié)議條款達(dá)成一致

        1小時(shí)前

      • LG電子在印度開建第三座制造工廠,未來(lái)4年將投資約6億美元

        3小時(shí)前

      • 零一萬(wàn)物聯(lián)創(chuàng)戴宗宏離職創(chuàng)業(yè),獲得創(chuàng)新工場(chǎng)投資

        3小時(shí)前

      • 證監(jiān)會(huì)主席吳清:人工智能引領(lǐng)科技產(chǎn)業(yè)浪潮

        3小時(shí)前

      • AI芯片“武器化”:美國(guó)芯片管制變身全球貿(mào)易談判“核選項(xiàng)”

        4小時(shí)前

      • 韓國(guó)請(qǐng)求美國(guó)免除對(duì)進(jìn)口半導(dǎo)體征收的潛在關(guān)稅,警告將產(chǎn)生負(fù)面影響

        4小時(shí)前

      關(guān)閉
      加載

      PDF 加載中...

      集微logo
      網(wǎng)站首頁(yè) 版權(quán)聲明 集微招聘 聯(lián)系我們 網(wǎng)站地圖 關(guān)于我們 商務(wù)合作 rss訂閱

      聯(lián)系電話:

      0592-6892326

      新聞投稿:

      laoyaoba@gmail.com

      商務(wù)合作:

      chenhao@ijiwei.com

      問(wèn)題反饋:

      1574400753 (QQ)

      集微官方微信

      官方微信

      集微官方微博

      官方微博

      集微app

      APP下載

        友情鏈接:

      • 鳳凰科技

      • 雷鋒網(wǎng)

      • 財(cái)聯(lián)社

      • 電子產(chǎn)品世界

      • 與非網(wǎng)

      Copyright 2007-2023?IJiWei.com?Inc.All rights reserved | 閩ICP備17032949號(hào)

      閩公網(wǎng)安備 35020502000344號(hào)

      感谢您访问我们的网站,您可能还对以下资源感兴趣:

      亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看
      国产熟女视频一区二区三区| 美女大骚逼幸福遍穴| 男生和女人靠逼视频| 东京热无码AV一区二区三区| 久久99国产中文| 欧美区 日韩区 亚洲区| 狂野国产性爱av| 中日韩国内精品视频| 大黑屌日本另类肛交| 性一乱一交一免费看视频| 美女扒开腿让男人桶爽揉| 女女同性女同1区二区三| 大粗鳮巴r教师人妻91| 成人精品视频区一区二区三| 熟女大屁股亚洲一区| 一区二区三区亚洲av| 久久精品国产自清天天线| 国产品无码一区二区三区在线 | 亚洲高清无遮挡在线观看| 欧美精品性做久久久久久| 大黑屌日本另类肛交| 中国女人日逼免费片| 亚洲中文字幕二区不卡| 国产免费好大好硬| 中文字幕av一区二区三区蜜桃| 97超视频免费在线观看| 国产无码福利一区| 三级片成人京东热五月天| 国产剧情使劲操我逼| 日韩人妻精品一区二区三区| 日韩av大片一区二区三区| 国产精品无码一二区免费| 韩国年轻的母亲在线观看| 亚洲福利左线观看| 胸大裸体美女视频| 午夜福利国产三级片| 天堂久久久久久久久久久| 国产精品一区二区三区涩涩av| 黄色日女人逼视频| 亚洲av伦理一区二区三区久久| 啊啊不要你那痛死爽死了直播一区 |