亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

DeepSeek:邁向全社會分享的普遍智能

來源:信息與電子工程前沿FITEE #DeepSeek# #AI# #開源#
7092

近期,杭州深度求索人工智能(AI)基礎(chǔ)技術(shù)研究有限公司(DeepSeek)先后上線大語言基座模型DeepSeek V3,以及基于V3訓(xùn)練、專為復(fù)雜推理任務(wù)設(shè)計(jì)的DeepSeek R1模型,并同步開源。它們以卓越的性能超越或媲美全球頂級的開源及閉源模型。

DeepSeek的開源之舉將使得AI像水和電一樣觸手可及,為實(shí)現(xiàn)“時(shí)時(shí)、處處、人人可用的普遍智能”帶來曙光。它在模型算法和工程優(yōu)化方面所進(jìn)行的系統(tǒng)級創(chuàng)新,為在受限資源下探索通用人工智能開辟了新的道路,并為打破以“大模型、大數(shù)據(jù)和大算力”為核心的生成式AI擴(kuò)展定律天花板帶來了無限遐想。

過去幾周,DeepSeek應(yīng)用登頂蘋果美國地區(qū)應(yīng)用商店免費(fèi)App下載排行榜,在美區(qū)下載榜上超越了ChatGPT。1月28日,美國“外交學(xué)者”(The Diplomat)網(wǎng)站發(fā)表題為《中國的DeepSeek是美國人工智能的“斯普特尼克時(shí)刻”》的文章指出,DeepSeek此次的開源之舉延續(xù)了OpenAI的初心使命——為了人類利益推動(dòng)人工智能發(fā)展。

2025年1月27日,DeepSeek應(yīng)用登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi)App下載排行榜,在美區(qū)下載榜上超越了ChatGPT 圖源:中央廣電總臺中國之聲

DeepSeek的出圈,再次印證了一個(gè)科技創(chuàng)新道理:贏得比賽的關(guān)鍵是精益求精、富有創(chuàng)造力的創(chuàng)新,而非單純的金融實(shí)力和一味的出口管制。

“大力出奇跡”并非AI唯一出路

2019年,人工智能領(lǐng)域強(qiáng)化學(xué)習(xí)鼻祖、Deepmind研究科學(xué)家,加拿大阿爾伯塔大學(xué)計(jì)算機(jī)學(xué)教授理查德·薩頓發(fā)表了一篇題為《苦澀的教訓(xùn)》的文章,認(rèn)為“縱觀過去70年的AI發(fā)展歷史,想辦法利用更大規(guī)模的算力總是最高效的手段”。

在“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”這一深度學(xué)習(xí)理念支持下,以Transformer為基本模型的生成式AI(如ChatGPT等)不再從互聯(lián)網(wǎng)中搜索和羅列已有匹配信息,而是從海量數(shù)據(jù)中洞悉單詞與單詞之間的共現(xiàn)概率,以組合意義下“昨日重現(xiàn)”方式合成眾所周知的語言內(nèi)容。

Transformer是2017年谷歌公司提出的一種新型深度神經(jīng)網(wǎng)絡(luò),其核心在于通過自注意力機(jī)制讓每個(gè)單詞記住在不同語境下的“左鄰右舍”,然后以似曾相識之感來概率合成新的內(nèi)容?!癟ransformer”這一名字或許受到了2007年于美國上映的電影《變形金剛》的英文名“Transformers”的啟發(fā),因此可以將合成內(nèi)容的生成式AI看成一個(gè)“魔鏡”,它能夠根據(jù)輸入內(nèi)容猶如變換魔術(shù)般輸出與之對應(yīng)的輸出內(nèi)容。

由于每個(gè)單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數(shù)不斷增多而導(dǎo)致模型規(guī)模不斷增大,隨之出現(xiàn)了大模型的“擴(kuò)展定律”(scaling law),即隨著模型規(guī)模、訓(xùn)練數(shù)據(jù)和計(jì)算資源的增加,模型性能會得到顯著提升, 并且這些關(guān)系遵循可預(yù)測的模式。

面對越來越大的模型,訓(xùn)練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權(quán)開始左右人工智能的發(fā)展。英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛就據(jù)此提出過“黃氏定律”:在計(jì)算架構(gòu)改進(jìn)的推動(dòng)下,人工智能芯片的性能每年可提升1倍,速度遠(yuǎn)超摩爾定律。

人工智能擴(kuò)展定律雖然也需要算法和系統(tǒng)的創(chuàng)新,但是這一“無他、但手熟爾”的模式應(yīng)該不是人工智能發(fā)展的唯一出路,因?yàn)椤盎睘楹?、大巧不工”才是推?dòng)“機(jī)器學(xué)習(xí)”邁向“學(xué)習(xí)機(jī)器”的初衷。

萬物之始,大道至簡,衍化至繁,以簡單直接思路解決復(fù)雜問題才是科學(xué)研究之道。1953年,獲得1938年諾貝爾物理學(xué)獎(jiǎng)的恩利克·費(fèi)米提到,馮·諾依曼曾對他說過,用四個(gè)參數(shù)就可以畫出一頭大象,用五個(gè)參數(shù)就可以讓大象鼻子動(dòng)起來。英國數(shù)學(xué)家雅各布·布魯諾斯基也曾提到,馮·諾依曼認(rèn)為圍棋不是博弈,雖然因?yàn)橛?jì)算復(fù)雜而難以找到答案,但在理論上,下圍棋一定有個(gè)最佳落子方案。

這些故事告訴我們,用簡單方法解決復(fù)雜問題是科學(xué)研究基本思路之一,正如愛因斯坦所言,“所有科學(xué)中最重大的目標(biāo)就是從最少數(shù)量的假設(shè)和公理出發(fā),用邏輯演繹推理的方法解釋最大量的經(jīng)驗(yàn)事實(shí)”。由此可見,DeepSeek的研發(fā)初心切合了大模型發(fā)展的內(nèi)在邏輯,為遏制其“瘋長”勢頭提供了一劑良藥。

從“學(xué)而不思則罔”到“思而不學(xué)則殆”

能用眾力,則無敵于天下矣;能用眾智,則無畏于圣人矣。DeepSeek的精彩表現(xiàn)在于其對算法、模型和系統(tǒng)等進(jìn)行的系統(tǒng)級協(xié)同創(chuàng)新,是眾智和眾力相互疊加的成果。

應(yīng)該說,DeepSeek模型仍是基于美國谷歌公司于2017年提出的Transformer架構(gòu),沒有實(shí)現(xiàn)改變游戲規(guī)則的顛覆性基礎(chǔ)理論創(chuàng)新。但是,它在模型算法和工程優(yōu)化方面進(jìn)行了系統(tǒng)級創(chuàng)新,在2048塊英偉達(dá)H800 GPU(針對中國市場的低配版GPU)集群上完成訓(xùn)練,打破了大語言模型以大算力為核心的預(yù)期天花板,為在受限資源下探索通用人工智能開辟了新的道路。其算法和工程創(chuàng)新主要包括了混合專家模型、低秩注意力機(jī)制、強(qiáng)化學(xué)習(xí)推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優(yōu)化等工程創(chuàng)新。

混合專家稀疏模型與傳統(tǒng)大語言模型所采用“眾人拾柴、咸與維新”不同,它另辟蹊徑采取了“術(shù)業(yè)有專攻”理念,每次讓若干個(gè)合適專家協(xié)作發(fā)揮各自能力,完成特定任務(wù)。

DeepSeek的基座模型V3采用了混合專家機(jī)制,每一個(gè)Transformer層包含256個(gè)專家和1個(gè)共享專家,V3基座模型總共有6710億參數(shù),但是每次token僅激活8個(gè)專家、370億參數(shù)。這一創(chuàng)新算法與稠密模型相比預(yù)訓(xùn)練速度更快,與具有相同參數(shù)數(shù)量的模型相比,則具有更快的推理速度。

實(shí)際上,人腦也是一個(gè)稀疏模型。雖然人腦由800多億個(gè)神經(jīng)元和100萬億個(gè)突出連接而成,但它在完成識人辯物和舉手投足等任務(wù)時(shí),每次只有一小部分神經(jīng)元被激活。實(shí)現(xiàn)“弱水三千,只取一瓢飲”,且讓被選擇若干專家能夠以“十個(gè)指頭彈鋼琴”形式負(fù)載均衡地合作完成任務(wù),而不是“三個(gè)和尚無水喝”——這正是DeepSeek所做出的難得的算法創(chuàng)新。

低秩注意力機(jī)制的引入使DeepSeek在保持模型性能的同時(shí)顯著降低了計(jì)算和存儲成本。

低秩注意力機(jī)制又被稱為多頭潛在注意力機(jī)制。人類在對外界信息理解時(shí),往往看到的是內(nèi)嵌在信息中的本質(zhì)結(jié)構(gòu)。例如,我們在理解一篇文章,更關(guān)切單詞所刻畫的主題概念,而非單詞從頭到尾的羅列等。傳統(tǒng)大模型中的注意力機(jī)制由于需要記錄每個(gè)單詞在不同上下文中的左鄰右舍,因此其變得龐大無比。DeepSeek引入低秩這一概念,對巨大的注意力機(jī)制矩陣進(jìn)行了壓縮,減少參與運(yùn)算的參數(shù)數(shù)量,從而在保持模型性能的同時(shí)顯著降低了計(jì)算和存儲成本,把顯存占用降到了其他大模型的5%-13%,極大提升了模型運(yùn)行效率。

在強(qiáng)化學(xué)習(xí)推理方面,傳統(tǒng)大模型方法訓(xùn)練時(shí)采用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數(shù)據(jù),通過監(jiān)督式微調(diào)來讓大語言模型仿照思維鏈完成相應(yīng)任務(wù)。但DeepSeek這次在訓(xùn)練推理模型中直接采用了一條前所未有的“純”強(qiáng)化學(xué)習(xí)路徑,僅根據(jù)模型輸出答案優(yōu)劣以及輸出答案格式完整等簡單信息,對模型行為進(jìn)行獎(jiǎng)懲。

這一做法如同讓一個(gè)天才兒童在沒有任何范例的指導(dǎo)下,完全通過“嘗試與試錯(cuò)”來不斷探索未知空間,并利用已有經(jīng)驗(yàn)不斷取得進(jìn)步,最終完成從“摸著石頭過河”到“先知后行”的蝶變。而且,DeepSeek進(jìn)一步提出了讓模型從若干答案中進(jìn)行比較的選擇方法,以實(shí)現(xiàn)自我提升。

這種直接訓(xùn)練方法不僅完成時(shí)間更短、計(jì)算資源需求大幅減少,更讓模型學(xué)會了思考,而且是以見證“啊哈時(shí)刻(Aha Moment)”(指讓用戶眼前一亮?xí)r刻)的頓悟方式思考,并會用人類易懂的方式表達(dá)思維過程。

但值得注意的是,該方法難免導(dǎo)致推理過程難以被溯源和理解等局限性。為此,DeepSeek收集了一部分思維鏈數(shù)據(jù),引入冷啟動(dòng)和有監(jiān)督微調(diào)等方法,對模型進(jìn)行再次訓(xùn)練,從而讓模型在保持強(qiáng)大推理能力的同時(shí),還學(xué)會了用人類易懂的方式表達(dá)思維過程。

廣受關(guān)注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結(jié)果,來提升自身能力。比如,在對一篇文章分類時(shí),大模型認(rèn)為該文章以85%、10%和5%的概率分別屬于正面、負(fù)面和中性等不同情感類別。小模型就從大模型輸出的結(jié)果中認(rèn)真思考,不斷調(diào)整參數(shù),以期望繼承大模型能力,從而輸出類似結(jié)果。

由于神經(jīng)網(wǎng)絡(luò)有強(qiáng)大非線性映射能力,蒸餾學(xué)習(xí)不僅沒有導(dǎo)致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”蒸餾之術(shù)遷移到了小模型。這不禁讓人感嘆,對于大模型而言,“學(xué)而不思則罔”;對于小模型而言,“思而不學(xué)則殆”。

算法創(chuàng)新克服大語言模型擴(kuò)展定律還需要工程創(chuàng)新。為此,DeepSeek使用FP8混合精度加速訓(xùn)練并減少GPU內(nèi)存使用,使用DualPipe算法(即將前向和后向計(jì)算與通信階段重疊以最大限度地減少計(jì)算資源閑置)提升訓(xùn)練效率,并進(jìn)行了極致的內(nèi)存優(yōu)化。他們開發(fā)了一套完善的數(shù)據(jù)處理流程,著重于最小化數(shù)據(jù)冗余,同時(shí)保留數(shù)據(jù)的多樣性。

“精彩一躍”開辟“普遍智能”新路徑

盡管DeepSeek模型基于Transformer架構(gòu),并非顛覆性基礎(chǔ)理論創(chuàng)新,但是DeepSeek的確是AI漫漫征途中精彩一躍,也為AI未來發(fā)展帶來了深刻啟示。

事實(shí)上,AI迄今所取得的成就都是過往一次次“精彩一躍”所繪就而成。去年,諾貝爾物理學(xué)獎(jiǎng)授予AI就是這樣一個(gè)注解:約翰·霍普菲爾德和杰弗里·辛頓分別從物理學(xué)能量最小和玻爾茲曼分布角度去優(yōu)化神經(jīng)網(wǎng)絡(luò)模型參數(shù),為當(dāng)下深度學(xué)習(xí)的崛起打下了堅(jiān)實(shí)的歷史樁基。

今年1月25日,《經(jīng)濟(jì)學(xué)人》雜志在《中國人工智能產(chǎn)業(yè)幾乎已追上美國》一文中使用了一幅圖片——一條龍出現(xiàn)在一輛車的后視鏡中,借此暗指中美AI發(fā)展之間距離已經(jīng)相當(dāng)接近。不過,文章又用“穿著高跟鞋倒退跳舞的金杰·羅杰斯”來暗喻,在AI發(fā)展過程中,美國OpenAI等人工智能巨頭付出了更多努力或承擔(dān)了更多責(zé)任,而現(xiàn)在DeepSeek卻得到了更多贊譽(yù)或關(guān)注。

“夫水之積也不厚,則其負(fù)大舟也無力”,在為DeepSeek成功喝彩的同時(shí),我們也要為推動(dòng)人工智能發(fā)展的所有努力而喝彩,每個(gè)人的努力均不可忽視。

長久以來,人們一直認(rèn)為,“從0到1”的理論創(chuàng)新是推動(dòng)AI發(fā)展的引擎,但事實(shí)上工程創(chuàng)新也是不可或缺的推動(dòng)力量。DeepSeek在架構(gòu)設(shè)計(jì)和工程優(yōu)化上進(jìn)行的系統(tǒng)性創(chuàng)新,就是為了實(shí)現(xiàn)在資源受限情況下完成對標(biāo)一流大語言模型性能的任務(wù),他們用創(chuàng)新改變了大語言模型依賴算力的固有路徑。

中國工程院院士、中國工程物理研究院研究員李幼平曾經(jīng)講過一個(gè)故事:他曾請教我國“兩彈一星”元?jiǎng)?、兩院院士朱光亞先生,為什么九院稱“工程物理研究院”。朱光亞先生回答:“物理是深度,工程是規(guī)模——沒有規(guī)模,做不成大事。”

由此可見,在算力成本呈指數(shù)級增長的人工智能領(lǐng)域,通過算法優(yōu)化、架構(gòu)突破和工程創(chuàng)新降低大語言模型成本,這本身就是技術(shù)實(shí)力的體現(xiàn),是難能可貴的大事。

更讓人激動(dòng)的是DeepSeek將工程創(chuàng)新成果開源,以此加速技術(shù)落地和迭代升級?,F(xiàn)在,任何人均可從DeepSeek網(wǎng)站自行下載與部署模型,網(wǎng)站提供了詳細(xì)說明訓(xùn)練步驟與竅門的文檔。

可以預(yù)見,DeepSeek不同大小模型將被部署為不同場景中的人工智能基座,大家都可通過行業(yè)自有數(shù)據(jù)、知識和經(jīng)驗(yàn)進(jìn)行專業(yè)訓(xùn)練和微調(diào),從而創(chuàng)造無限可能。

如果說,傳統(tǒng)大模型遵循的是一條“由通到?!钡娜斯ぶ悄馨l(fā)展思路,那么DeepSeek的做法將推動(dòng)形成一條“由專到通”的人工智能發(fā)展路徑,通過牽引人工智能技術(shù)生態(tài)形成,邁向全社會分享的普遍智能之路。

智能時(shí)代,教育何為?

人工智能是一種類似于內(nèi)燃機(jī)或電力的“通用目的技術(shù)”,天然具備“至小有內(nèi),至大無外”推動(dòng)學(xué)科交叉的潛力,無論是從人工智能角度解決科學(xué)問題(AI for Science,如利用人工智能預(yù)測蛋白質(zhì)序列的三維空間結(jié)構(gòu)),還是從科學(xué)的角度優(yōu)化人工智能(Science for AI,如從統(tǒng)計(jì)物理規(guī)律角度優(yōu)化神經(jīng)網(wǎng)絡(luò)模型),未來的重大突破都將源自于這種交叉領(lǐng)域的工作。

如果說過往的技術(shù)發(fā)明是從機(jī)械化增強(qiáng)角度在提升人類與環(huán)境的互動(dòng)能力,那么人工智能的出現(xiàn)卻對人類的這一根本能力和角色發(fā)起挑戰(zhàn)——生成式人工智能的出現(xiàn)使得智能機(jī)器成為知識生產(chǎn)的輔助者,將深刻改變個(gè)體學(xué)習(xí)者的自主思考、判斷、學(xué)習(xí)能力,乃至倫理道德觀。

如何看待一項(xiàng)新技術(shù)的發(fā)展,這是進(jìn)行技術(shù)預(yù)測一項(xiàng)必需的認(rèn)知準(zhǔn)備。遺憾的是,我們?nèi)祟惪偸橇?xí)慣于線性思維(這符合人類自然的認(rèn)知模式:節(jié)省能量與快速計(jì)算)。但是,這種認(rèn)知配置很容易出現(xiàn)認(rèn)知偏差,其中最常見的就是對于技術(shù)近期與遠(yuǎn)期影響的判斷出現(xiàn)不對稱性——短期內(nèi)我們傾向于高估技術(shù)的影響,長期內(nèi)我們低估技術(shù)的影響,即美國科學(xué)家羅伊·阿瑪拉提出的“阿瑪拉法則”。

那么,隨著智能時(shí)代的來臨,如何通過教育體系的變革來應(yīng)對這一時(shí)代之變?在浙江大學(xué)于2024年6月發(fā)布的《大學(xué)生人工智能素養(yǎng)紅皮書》中,我們提出,大學(xué)生人工智能素養(yǎng)是由體系化知識、構(gòu)建式能力、創(chuàng)造性價(jià)值和人本型倫理構(gòu)成的有機(jī)整體,其中知識為基、能力為重、價(jià)值為先、倫理為本。

目前,浙江大學(xué)和復(fù)旦大學(xué)等高校已將人工智能作為全校大學(xué)生通識必修課程。而且,浙江大學(xué)、復(fù)旦大學(xué)、上海交大、南京大學(xué)、中科大和同濟(jì)大學(xué)已在四年前共同推出“課程共建、學(xué)分互認(rèn)、證書共簽”的AI+X微專業(yè),今年還將推出升級版,進(jìn)一步加強(qiáng)人工智能通識教育和交叉學(xué)科教育。

2024年春節(jié),我為文匯報(bào)撰寫《Sora“超級涌現(xiàn)力”將把AI引向何方》的文章,今年春節(jié)又為DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全

責(zé)編: 集小微
來源:信息與電子工程前沿FITEE #DeepSeek# #AI# #開源#
THE END
集小微

微信:

郵箱:


3582文章總數(shù)
4709.3w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...

亚洲欧美一区二区爽爽爽| 日本一二区视频在线观看| 日本高清一区二区三区水蜜桃| 香蕉国产精品偷在线| 无码中文字幕免费一区二区三区| 骚女性爱视频在线看| 国产中文字幕在线一区二区三区| 欧洲老妇人操大逼| 中文字幕在线观视频| 国产精品毛片无遮挡高清| 亚洲综合无码一区二区丶| 24日本精品视频免费| 最新中文字幕av不卡高清| 97超级免费视频在线观看| 色狠狠久久av北条麻妃| 国产一区二区三区午夜精品久久| 黑人大吊又操又添| 欧美日韩国产这里只有精品| 日本熟人妻中文字幕在线| 日韩成人伦理片在线观看| 欧美亚洲干妞内射| 美国大骚逼啊啊啊| 中国熟女色av夜夜嗨| 激烈18禁高潮视频免费| 国产精品操大屁股老淑女| 嗯啊好大好想要视频| 日韩成人伦理片在线观看| 亚洲Av无码专区一区二区三区| 国产精品亚洲综合av| 亚洲一区二区三成人精品| 鸡巴和逼中国美女| 亚洲国产AV精品一区二区色欲| 有关日本黄色录像的视频| 开心五月播五月亚洲第一| 国产色哟哟精选在线播放| 大胸美女被c的嗷嗷叫视频| 日本一区二区三区高潮喷吹| 操国产骚逼逼逼逼逼逼逼| 中文字幕在线资源第一页| 色老头av亚洲三区三区| 男人扒开女人腿狂躁免费|