亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

GPT-5超越人類醫(yī)生!推理能力比專家高出24%,理解力強(qiáng)29%

來(lái)源:量子位 #GPT-5# #AI醫(yī)療# #跨模態(tài)#
915

GPT-5比人類醫(yī)生還會(huì)看X光片?!

最新研究顯示,GPT-5對(duì)醫(yī)學(xué)影像的推理和理解準(zhǔn)確率分別比人類專家高出24.23%和29.40%。

來(lái)自埃默里大學(xué)醫(yī)學(xué)院的研究團(tuán)隊(duì)把GPT-5和GPT-4o以及更小的GPT-5變體(GPT-5-mini、GPT-5-nano)進(jìn)行了比較,分析它們?cè)卺t(yī)療領(lǐng)域處理多模態(tài)信息的能力。

通過(guò)一系列標(biāo)準(zhǔn)化測(cè)試發(fā)現(xiàn)GPT-5在所有測(cè)試中的表現(xiàn)都比其他模型好,尤其是在MedXpertQA的多模態(tài)測(cè)試中,它的推理和理解得分比GPT-4o分別提高了近30%和36%,甚至比人類醫(yī)生還高。

AI看病歷常見,可是比人類醫(yī)生還會(huì)看就不常見了,所以GPT-5是怎么做到的?

AI在多模態(tài)醫(yī)學(xué)領(lǐng)域超越人類新手醫(yī)生

研究人員對(duì)GPT-5、GPT-4o以及GPT-5的mini和nano版本進(jìn)行了系統(tǒng)測(cè)試。

測(cè)試分為三類:純文本的USMLE考試、多模態(tài)的MedXpertQA測(cè)試還有還有放射科的VQA-RAD,都是零樣本設(shè)置,不依賴數(shù)據(jù)微調(diào)。

USMLE是美國(guó)醫(yī)師執(zhí)照考試,有標(biāo)準(zhǔn)化的命題和嚴(yán)格的評(píng)分體系,是全球醫(yī)學(xué)教育和人才評(píng)估的重要參考基準(zhǔn)。

該考試分為三個(gè)步驟:Step1主要考察基礎(chǔ)醫(yī)學(xué)知識(shí),Step2聚焦臨床應(yīng)用知識(shí),Step3側(cè)重實(shí)踐。

在此次研究中,GPT-5在USMLE考試中全面超越GPT-4o,且平均得分領(lǐng)先于其他模型。

MedXpertQA測(cè)試是一個(gè)用于評(píng)估模型專家級(jí)醫(yī)學(xué)知識(shí)與高級(jí)推理能力的綜合基準(zhǔn),有文本測(cè)試和多模態(tài)測(cè)試,共涵蓋4460道題目,涉及17個(gè)醫(yī)學(xué)??坪?1個(gè)身體系統(tǒng),其數(shù)據(jù)源自超20個(gè)美國(guó)醫(yī)師執(zhí)照考試、歐洲放射學(xué)委員會(huì)考試等權(quán)威內(nèi)容。

其中多模態(tài)的MedXpertQA測(cè)試?yán)盟腗M子集展開,MM子集引入了帶有多樣化圖像及豐富臨床信息(病歷、檢查結(jié)果等)的專家級(jí)考試題。

為增加難度,多模態(tài)子集的題目還擴(kuò)充至5個(gè)選項(xiàng),能更有效地評(píng)估模型在貼近真實(shí)場(chǎng)景下的醫(yī)學(xué)診斷推理能力。

依據(jù)之前的數(shù)據(jù),GPT-5推理和理解得分比GPT-4o分別提高了近30%和36%。

下圖詳細(xì)對(duì)比了未取得執(zhí)照的人類專家與GPT-5系列模型及GPT-4o在MedXpertQA測(cè)試的文本子集(Text)和多模態(tài)子集(MM)中的表現(xiàn),涵蓋推理、理解及平均三個(gè)維度。

在文本測(cè)試中,GPT-4o三項(xiàng)得分均低于人類專家,GPT-5-nano同樣全面落后,GPT-5-mini 推理和平均得分略超人類專家,而GPT-5表現(xiàn)最優(yōu),得分大幅領(lǐng)先。

在多模態(tài)測(cè)試中,GPT-4o推理和平均得分略低,GPT-5-nano整體與人類專家持平,GPT-5-mini大幅超越人類專家,GPT-5優(yōu)勢(shì)最為顯著,推理超人類專家24%、理解得超人類專家29%,展現(xiàn)出強(qiáng)大的多模態(tài)醫(yī)學(xué)推理能力。

VQA-RAD測(cè)試是醫(yī)學(xué)視覺(jué)問(wèn)答測(cè)試,該數(shù)據(jù)集包含315張放射影像以及與之對(duì)應(yīng)的3515個(gè)問(wèn)答對(duì)。常用于評(píng)估醫(yī)學(xué)多模態(tài)大語(yǔ)言模型解讀復(fù)雜醫(yī)學(xué)圖像并生成準(zhǔn)確文本描述的能力。

在此次研究中,GPT-5的匹配率為70.92%,高于GPT-4o及小變體GPT-5-nano,而其輕量化變體GPT-5-mini的表現(xiàn)略優(yōu),嚴(yán)格匹配率達(dá)到74.90%。

考慮到VQA-RAD規(guī)模相對(duì)較小且具有放射科專項(xiàng)屬性,這種得分差異可能源于較小模型存在數(shù)據(jù)集特定的過(guò)擬合現(xiàn)象。

看了這么多測(cè)試結(jié)果,那么GPT-5為什么能全面碾壓前輩GPT-4o呢?

GPT-5構(gòu)建了端到端的多模態(tài)架構(gòu)

團(tuán)隊(duì)認(rèn)為,GPT-5能力提升核心源于其跨模態(tài)注意力與對(duì)齊能力的增強(qiáng)。

GPT-5與GPT-4o的核心差距,本質(zhì)上是從文本主導(dǎo)的混合處理到原生多模態(tài)深度融合的代際跨越。

GPT-4o在處理跨模態(tài)任務(wù)時(shí),仍依賴文本轉(zhuǎn)譯+外部工具調(diào)用的間接模式:例如解析醫(yī)學(xué)影像時(shí),需先通過(guò)第三方模型將圖像信息轉(zhuǎn)化為文本描述,再基于文本進(jìn)行推理。

這種模態(tài)轉(zhuǎn)換中介不僅增加了信息損耗(如圖像中的細(xì)微病變可能在轉(zhuǎn)譯中被忽略),還導(dǎo)致推理鏈條斷裂——模型難以直接建立影像特征-病理機(jī)制-治療方案的因果關(guān)聯(lián)。

而GPT-5構(gòu)建了端到端的多模態(tài)架構(gòu):通過(guò)共享標(biāo)記化技術(shù),將文本、影像、音頻等信息編碼為統(tǒng)一向量空間的符號(hào),再借助跨模態(tài)注意力機(jī)制實(shí)現(xiàn)感知-推理-決策的無(wú)縫銜接。

并且,團(tuán)隊(duì)認(rèn)為在MedXpertQA Text、USMLE Step 2這樣的推理密集型任務(wù)中,GPT-5的進(jìn)步更突出是因?yàn)樗季S鏈提示與GPT-5增強(qiáng)的內(nèi)部推理能力形成了協(xié)同效應(yīng),使其能更準(zhǔn)確地完成多步推理。

不過(guò)研究人員也指出,盡管GPT-5在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀,但要說(shuō)明的是,這些測(cè)試都是在理想環(huán)境下進(jìn)行的,題目和數(shù)據(jù)都是標(biāo)準(zhǔn)化的,現(xiàn)實(shí)中患者的情況千奇百怪,還可能遇到各種突發(fā)狀況。

所以,GPT-5要真走進(jìn)診室當(dāng)助理,還得經(jīng)過(guò)更多實(shí)戰(zhàn)考驗(yàn)。

這不,KCDH_A數(shù)字健康研究中心對(duì)AI進(jìn)行了放射科的終極考試,這是一項(xiàng)AI從未見過(guò)的、跨模態(tài)的檢測(cè)任務(wù),涵蓋了CT、MRI和X光,模擬日常實(shí)踐中實(shí)際遇到的復(fù)雜真實(shí)病例。

測(cè)試結(jié)果顯示,所有AI模型得分均低于實(shí)習(xí)醫(yī)生,而擁有執(zhí)業(yè)資格的放射科醫(yī)生比AI領(lǐng)先更多,雖然GPT-5剛剛進(jìn)入頂尖AI的位置,但也遠(yuǎn)低于人類。

該實(shí)驗(yàn)室的研究人員表示:

雖然我對(duì)AI發(fā)展感到興奮,我們實(shí)驗(yàn)室也在每天使用AI模型,但AI取代放射科醫(yī)生與現(xiàn)實(shí)的差距仍然很大。

由此可見,AI獨(dú)自看病歷之前,還是得先磨練磨練。

論文地址:https://arxiv.org/abs/2508.08224

參考鏈接:

[1]https://x.com/omarsar0/status/1955252499142627788

[2]https://x.com/emollick/status/1955381296743715241

[3]https://x.com/DrDatta_AIIMS/status/1954586822849523789

責(zé)編: 集小微
來(lái)源:量子位 #GPT-5# #AI醫(yī)療# #跨模態(tài)#
THE END
集小微

微信:

郵箱:


5292文章總數(shù)
9375.7w總瀏覽量
最新資訊
關(guān)閉
加載

PDF 加載中...