如何知道人工智能何時(shí)強(qiáng)大到足以造成危險(xiǎn)？美國監(jiān)管機(jī)構(gòu)試圖進(jìn)行計(jì)算

作者：愛集微 2024-09-05

來源：愛集微 #監(jiān)管# #人工智能# #AI監(jiān)管#

1.7w

如何知道一個(gè)人工智能系統(tǒng)是否會(huì)強(qiáng)大到構(gòu)成了安全隱患，在沒有仔細(xì)監(jiān)督的情況下不應(yīng)該投放使用?

對于試圖對人工智能設(shè)置監(jiān)管框架的監(jiān)管機(jī)構(gòu)來說，這在很大程度上是關(guān)于算術(shù)的問題。具體來說，現(xiàn)在在每秒10的26次方浮點(diǎn)運(yùn)算（FLOPS）上訓(xùn)練的AI模型必須向美國政府報(bào)告，并且很快可能會(huì)在加利福尼亞州觸發(fā)更嚴(yán)格的要求。

對一些立法者和AI安全倡導(dǎo)者來說，它標(biāo)志著一種計(jì)算能力的水平，這種能力可能使快速發(fā)展的AI技術(shù)能夠創(chuàng)建或擴(kuò)散大規(guī)模殺傷性武器，或者進(jìn)行災(zāi)難性的網(wǎng)絡(luò)攻擊。

制定此類法規(guī)的人承認(rèn)，要區(qū)分當(dāng)今性能最高的生成式AI系統(tǒng)(主要由Anthropic、谷歌、Meta平臺(tái)和ChatGPT制造商OpenAI等加州公司制造)與可能更強(qiáng)大的下一代AI系統(tǒng)，這些法規(guī)并不是一個(gè)完美的起點(diǎn)。

批評(píng)者指責(zé)這些閾值是武斷的——是政府試圖規(guī)范計(jì)算的嘗試。

“10的26次方浮點(diǎn)運(yùn)算，”風(fēng)險(xiǎn)投資家本·霍羅維茨今年夏天在一個(gè)播客上說?！班?，如果這就是你需要的模型的大小，比如，用來治愈癌癥呢？”

去年由美國拜登總統(tǒng)簽署的行政命令依賴于這個(gè)閾值。加利福尼亞州新通過的AI安全立法也是如此——州長加文·紐森必須在9月30日之前簽署成為法律或否決。加利福尼亞增加了第二個(gè)度量標(biāo)準(zhǔn)：受監(jiān)管的AI模型的建造成本還必須至少為1億美元。

跟隨拜登的腳步，歐盟的全面AI法案也衡量每秒浮點(diǎn)運(yùn)算次數(shù)，或FLOPS，但將標(biāo)準(zhǔn)設(shè)定為10的25次方，低了10倍。這涵蓋了一些已經(jīng)在運(yùn)行的AI系統(tǒng)。中國政府也在考慮測量計(jì)算能力，以確定哪些AI系統(tǒng)需要安全保障。

沒有公開可用的模型達(dá)到更高的加利福尼亞閾值，盡管很可能一些公司已經(jīng)開始構(gòu)建它們。如果是這樣，它們應(yīng)該與美國政府分享某些細(xì)節(jié)和安全預(yù)防措施。

AI研究人員仍在辯論如何最好地評(píng)估最新生成型AI技術(shù)的能力，以及它與人類智能的比較。有一些測試通過解決謎題、邏輯推理或預(yù)測文本將如何迅速準(zhǔn)確地回答一個(gè)人的聊天機(jī)器人查詢來判斷AI。這些測量有助于評(píng)估AI工具對特定任務(wù)的有用性，但沒有辦法輕易知道哪一個(gè)具有廣泛的能力，能夠構(gòu)成對人類的威脅。

“這種計(jì)算，這個(gè)FLOP數(shù)字，根據(jù)普遍共識(shí)，是我們在這方面擁有的最好的東西，”物理學(xué)家安東尼·阿吉雷（Anthony Aguirre）說，他是生命未來研究所的執(zhí)行董事，該研究所一直倡導(dǎo)通過加利福尼亞州參議院法案1047和其他全球AI安全規(guī)則。

浮點(diǎn)運(yùn)算可能聽起來很花哨，“但它實(shí)際上只是被加在一起或乘在一起的數(shù)字，”這是評(píng)估AI模型能力和風(fēng)險(xiǎn)最簡單的方法之一，阿吉雷說。

“這些東西大多數(shù)都在做的就是將大表格的數(shù)字相乘在一起?！彼f，“你可以想象在計(jì)算器中輸入幾個(gè)數(shù)字，然后加或乘。這就是它所做的——一萬億次或一百萬萬億次?！?/p>

然而，對于一些科技領(lǐng)袖來說，這是一個(gè)過于簡單和硬編碼的指標(biāo)。計(jì)算機(jī)科學(xué)家Sara Hooker在7月的一篇論文中爭辯說，使用這樣的指標(biāo)作為風(fēng)險(xiǎn)的代理沒有“明確的科學(xué)支持”，她領(lǐng)導(dǎo)著AI公司Cohere的非營利研究部門。

“目前實(shí)施的計(jì)算閾值是短視的，可能無法減輕風(fēng)險(xiǎn)?！彼龑懙?。

風(fēng)險(xiǎn)投資家霍羅維茨和他的商業(yè)伙伴馬克·安德里森（Marc Andreessen），這兩位有影響力的硅谷投資公司安德里森·霍羅威茨的創(chuàng)始人，也抨擊了拜登政府和加利福尼亞AI法規(guī)立法者，他們認(rèn)為這些法規(guī)可能會(huì)扼殺新興的AI初創(chuàng)產(chǎn)業(yè)。

對于霍羅維茨來說，限制“你被允許做多少計(jì)算”反映了一個(gè)錯(cuò)誤的信念，即只有少數(shù)大公司會(huì)制造出最有能力的模型，你可以在它們面前放置“火焰圈，它們會(huì)跳過去，這沒關(guān)系。”

針對這些批評(píng)，加利福尼亞州立法的發(fā)起人今年夏天向安德里森·霍羅威茨寄了一封信，為該法案辯護(hù)，包括其監(jiān)管閾值。

舊金山州參議員Scott Wiener寫道，以超過10的26次方浮點(diǎn)運(yùn)算進(jìn)行監(jiān)管是“一個(gè)明確的方法，可以將我們所知道的許多模型排除在安全測試要求之外，根據(jù)目前的證據(jù)，這些模型缺乏造成嚴(yán)重傷害的能力?！?Wiener說，已經(jīng)公開發(fā)布的現(xiàn)有模型“已經(jīng)經(jīng)過了高度危險(xiǎn)能力的測試，不包括在該法案內(nèi)?！?/p>

Wiener和拜登的行政命令都把這個(gè)度量標(biāo)準(zhǔn)視為一個(gè)臨時(shí)的，以后可能會(huì)調(diào)整。

在AI公司Hugging Face從事政策研究的Yacine Jernite表示，F(xiàn)LOPS度量標(biāo)準(zhǔn)是出于“善意”中出現(xiàn)的，早于去年的拜登命令，但已經(jīng)開始變得過時(shí)。AI開發(fā)者正在用更小的模型做更多的事情，這些模型需要的計(jì)算能力更少，而更廣泛使用的AI產(chǎn)品的潛在危害不會(huì)觸發(fā)加利福尼亞州提議的審查。

“有些模型將對社會(huì)產(chǎn)生巨大的影響，這些模型應(yīng)該被要求達(dá)到更高的標(biāo)準(zhǔn)，而其他一些模型更具探索性，對它們進(jìn)行同樣的認(rèn)證過程可能沒有意義，” Jernite說。

阿吉雷表示，監(jiān)管機(jī)構(gòu)保持靈活是有意義的，但他將對FLOPS閾值的一些反對意見描述為試圖避免對越來越能干的AI系統(tǒng)進(jìn)行任何監(jiān)管的嘗試。

“這一切都發(fā)生得非?？?，”阿吉雷說。“我認(rèn)為有一個(gè)合理的批評(píng)是，這些閾值并沒有完全捕捉到我們想要捕捉的東西。但我認(rèn)為，從這一點(diǎn)出發(fā)，‘好吧，我們就不應(yīng)該做任何事情，只能交叉手指，期待最好的結(jié)果’，這是一個(gè)糟糕的論點(diǎn)?！?/p>