亚洲五月天一区二区三区-日本午夜福利视频在线-日本欧美一区二区不卡免费-日韩深夜视频在线观看

空間智能版ImageNet來了!李飛飛吳佳俊團隊出品

來源:量子位 #ImageNet# #HourVideo#
1.2w

空間智能版ImageNet來了,來自斯坦福李飛飛吳佳俊團隊!HourVideo,一個用于評估多模態(tài)模型對長達一小時視頻理解能力的基準(zhǔn)數(shù)據(jù)集,包含多種任務(wù)。通過與現(xiàn)有模型對比,揭示當(dāng)前模型在長視頻理解上與人類水平的差距。

2009年,李飛飛團隊在CVPR上首次對外展示了圖像識別數(shù)據(jù)集ImageNet,它的出現(xiàn)極大推動計算機視覺算法的發(fā)展——懂CV的都是知道這里面的門道有多深?,F(xiàn)在,隨著多模態(tài)迅猛發(fā)展,團隊認(rèn)為“現(xiàn)有的視頻基準(zhǔn)測試,大多集中在特定領(lǐng)域或短視頻上”,并且“這些數(shù)據(jù)集的平均視頻長度較短,限制了對長視頻理解能力的全面評估”。于是,空間智能版ImageNet應(yīng)運而生。

HourVideo包含500個來自Ego4D數(shù)據(jù)集的第一人稱視角視頻,時長在20到120分鐘之間,涉及77種日?;顒?。評測結(jié)果表示,人類專家水平顯著優(yōu)于目前長上下文多模態(tài)模型中最厲害的Gemini Pro 1.5(85.0%對37.3%)。在多模態(tài)能力上,大模型們還任重而道遠(yuǎn)。

HourVideo如何煉成?

之所以提出HourVideo,是因為研究人員發(fā)現(xiàn)目前長視頻理解越來越重要,而現(xiàn)有評估benchmark存在不足。多模態(tài)越來越卷,人們期待AI被賦予autonomous agents的類似能力;而從人類角度來看,由于人類具備處理長時間視覺處理的能力,因此能在現(xiàn)實視覺中感知、計劃和行動。因此,長視頻理解對實現(xiàn)這一目標(biāo)至關(guān)重要。而當(dāng)前的多模態(tài)評估benchmark,主要還是集中在評測單張圖像或短視頻片段(幾秒到三分鐘),對長視頻理解的探索還有待開發(fā)。不可否認(rèn)的是,AI評估長視頻理解面臨諸多挑戰(zhàn),譬如要設(shè)計任務(wù)、避免通過先驗知識或簡短片斷回答等。因此,團隊提出HourVideo。

這是一個為長視頻理解而設(shè)計的基準(zhǔn)數(shù)據(jù)集。為了設(shè)計出需要長期理解的任務(wù),團隊首先提出了一個新的任務(wù)對應(yīng)套件,包含總結(jié)、感知(回憶、跟蹤)、視覺推理(空間、時間、預(yù)測、因果、反事實)和導(dǎo)航(房間到房間、對象檢索)任務(wù),共18個子任務(wù)。其中,總結(jié)任務(wù)要求模型對視頻中的關(guān)鍵事件、主要交互等進行概括性描述,例如總結(jié)出脖子上掛了個相機的人在超市中有什么關(guān)鍵交互行為。感知任務(wù)由兩部分構(gòu)成,一個是回憶任務(wù),包括事實回憶(比如脖子上掛了個相機的人,在超市拿起的乳制品)和序列回憶(比如那個人在超市稱完西紅柿過后做了什么),以及對時間距離的判斷(比如吃了多久的披薩才扔掉盒子)。還有一個是跟蹤任務(wù),主要用來識別脖子上掛了個相機的人在特定場景(比如超市、藥店)中互動的獨特個體。

接下來是視覺推理任務(wù),分為空間推理和時間推理??臻g推理負(fù)責(zé)判斷物體之間的空間關(guān)系、空間接近度(如微波爐與冰箱或水槽相比是否更近)以及空間布局(如選擇正確描繪脖子上掛相機的人的公寓的布局圖)。時間推理則包括對活動持續(xù)時間的比較、事件發(fā)生頻率的判斷、活動的先決條件、預(yù)測(如洗完衣服后最可能做的活動)、因果關(guān)系(如第二次離開車庫的原因)以及反事實推理(如用烤箱做土豆泥會怎樣)。

導(dǎo)航任務(wù)包含了房間到房間的導(dǎo)航、對象檢索導(dǎo)航。以上每個任務(wù)有精心設(shè)計的問題原型,以確保正確回答問題需要對長視頻中的多個時間片段進行信息識別和綜合,從而有效測試模型的長期理解能力。

與此同時,研究人員通過pipeline來生成了HourVideo數(shù)據(jù)集。

第一步,視頻篩選。

團隊從Ego4D數(shù)據(jù)集中手動審核1470個20到120分鐘的視頻,讓5位人類專家選擇了其中500個視頻,至于為啥要從Ego4D中選呢,一來是其以自我為中心的視角與autonomous agents和助手的典型視覺輸入非常一致;二來是它具有廣泛的視覺敘述,有助于創(chuàng)建多樣化的題;三來Ego4D的訪問許可非常友好。

第二步,候選MCQ生成。

這需要在長視頻中跨多個時間片段,進行信息分析和合成。具體來說,研究人員以20分鐘為間隔分割了視頻,提取信息轉(zhuǎn)化為結(jié)構(gòu)化格式供大模型處理。最終一共開發(fā)了25個特定任務(wù)的prompts。

第三步,LLM優(yōu)化與人工反饋。

在這個階段,團隊實現(xiàn)了一個人工反饋系統(tǒng),7名經(jīng)驗豐富的人員人工評估每個問題的有效性、答案準(zhǔn)確性、錯誤選項合理性。最終收集了400多個小時的人工反饋,然后設(shè)計prompt,自動優(yōu)化 MCQ?得到 MCQ?。

第四步,盲選。

這一階段的目標(biāo)是消除可以通過大模型先驗知識的問題,或者消除那些可以在不用視頻中任何信息就可以回答的問題。團隊用兩個獨立的大模型——GPT-4-turbo和GPT-4,對MCQ?進行盲篩,確保剩余 MCQ?高質(zhì)量且專門測試長視頻語言理解。

第五步也是最后一步,專家優(yōu)化。

這一步是用來提升MCQ?質(zhì)量,將寬泛問題精確化,經(jīng)此階段得到高質(zhì)量 MCQ?。4個專家干的事be like,把 “掛著相機的人把鑰匙放在哪里了?” 精確成“掛著相機的人購物回家后,把自行車鑰匙放在哪里了?”如上pipeline中,研究圖納隊使用了GPT-4來遵循復(fù)雜的多步驟指令,同時還使用了CoT提示策略。此外,pipeline中涉及大模型的所有階段的問題被設(shè)為0.1。

據(jù)統(tǒng)計,HourVideo涵蓋77種日常生活場景,包含500個Ego4D視頻,視頻時長共381個小時、平均時長45.7分鐘,其中113個視頻時長超過1小時。每個視頻有約26個高質(zhì)量五選一題,共計12976個問題。除因果、反事實和導(dǎo)航任務(wù)外,問題在任務(wù)套件中均勻分布。

最好表現(xiàn)仍遠(yuǎn)低于人類專家水平

在實驗評估方面,HourVideo采用五選多任務(wù)問答(MCQ) 任務(wù),以準(zhǔn)確率作為評估指標(biāo),分別報告每個任務(wù)以及整個數(shù)據(jù)集的準(zhǔn)確率。由于防止信息泄露是評估長視頻中的MCQ時的一個重要挑戰(zhàn)——理想情況下,每個MCQ應(yīng)獨立評估,但這種方法計算成本巨高,且十分耗時。因此,實際評估中按任務(wù)或子任務(wù)對問題進行分批評估,對于預(yù)測任務(wù),提供精確的時間戳以便對視頻進行有針對性的剪輯,從而平衡計算成本和評估準(zhǔn)確性。

研究團隊比較了不同的多模態(tài)模型在零鏡頭設(shè)置下理解長視頻的性能。

主要評估了三類模型,所有這些模型都在一個通用函數(shù)下運行:

盲LLM:

指是指在評估過程中,不考慮視頻內(nèi)容,僅依靠自身預(yù)先訓(xùn)練的知識來回答問題的大型語言模型。實驗中以GPT-4為代表。它的存在可以揭示模型在多大程度上依賴于其預(yù)訓(xùn)練知識,而不是對視頻中實際視覺信息的理解。

蘇格拉底模型:

對于大多數(shù)當(dāng)前的多模態(tài)模型,直接處理非常長的視頻存在困難。因此,采用Socratic模型方法,將視頻(總時長為t分鐘)分割成1分鐘的間隔,每個間隔獨立加字幕,然后將這些字幕聚合形成一個全面的基于語言的視頻表示,并與通用任務(wù)無關(guān)的提示一起作為輸入進行長視頻問答。實驗中分別使用GPT-4和LLaVA- NEXT-34-DPO 為視頻字幕生成器,并最終使用GPT-4進行實際問題回答。

原生多模態(tài)模型:

像Gemini 1.5 Pro這樣的原生多模態(tài)模型,在多模態(tài)數(shù)據(jù)(包括音頻、視頻、圖像和文本)上聯(lián)合訓(xùn)練,能夠處理非常長的上下文長度*((2M +),適合直接對HourVideo進行端到端評估。為了與模型性能進行對比,實驗人員從基準(zhǔn)數(shù)據(jù)集中選取了14個視頻,涵蓋>18種場景,包括手工制作/繪畫、烹飪、建筑/裝修、園藝、清潔/洗衣和庭院工作等。

然后邀請了3位人類專家,對上述總時長11.2小時的視頻內(nèi)容進行進行評估,共涉及213個MCQ。為確保評估的公正性,參與評估的人類專家未參與過這些視頻的早期注釋工作。最終,人類專家在評估中的準(zhǔn)確率達到了85.0% 。而盲LLM的準(zhǔn)確率為19.6%,Socratic模型準(zhǔn)確率略高,原生多模態(tài)模型準(zhǔn)確率最高,達到了37.3%,仍然遠(yuǎn)低于人類專家水平。

此外,獨立評估每個MCQ與按任務(wù)級別評估相比,性能下降2.1%,但成本增加3倍以上,證明了任務(wù)級評估方法的效率和有效性。最后,團隊表示未來計劃擴展基準(zhǔn)測試,包括更多樣化的視頻來源(如體育和YouTube視頻),納入音頻模態(tài)支持,并探索其他感官模態(tài)。同時強調(diào)在開發(fā)模型時需考慮隱私、倫理等問題。

團隊成員:HourVideo項目來自斯坦福李飛飛和吳佳俊團隊。論文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。Keshigeyan Chandrasegaran是斯坦福大學(xué)計算機科學(xué)博士二年級學(xué)生,從事計算機視覺和機器學(xué)習(xí)研究,導(dǎo)師是李飛飛和斯坦福視覺與學(xué)習(xí)實驗室(SVL)聯(lián)合主任胡安·卡洛斯·尼貝萊斯。共同一作Agrim Gupta是斯坦福大學(xué)計算機科學(xué)專業(yè)的博士生,2019年秋季入學(xué),同樣是李飛飛的學(xué)生。此前,他曾在微軟、DeepMind,有Meta的全職經(jīng)歷,也在Google做過兼職。2018年時,他就跟隨李飛飛一同在CVPR上發(fā)表了論文。

責(zé)編: 集小微
來源:量子位 #ImageNet# #HourVideo#
THE END
關(guān)閉
加載

PDF 加載中...

91大神精品动漫| 色噜噜在线一区二区三区| 国产一区曰韩二区欧美三区 | 欧美性做爰片免费视频看| 日本精品高清在线观看| 任你橹在线久久精品9| 国产精品国产精黄 | 日本潘金莲三级bd高清| 使劲操大骚逼av| 日韩欧美视频在线观看不卡| 大鸡巴射在穴穴里的视频| 色噜噜在线一区二区三区| 午夜国产精品午夜福利网 | 国产精品粉嫩懂色av| 日本黄色美女射精| 中日韩VA无码中文字幕| 五月天婷婷一区二区三区久久| 最新AV中文字幕在线看| 欧美丰满大屁股女人的逼被操视频| 又爽又粗又大又长的爆草| 二次元男生操女生屁眼爽| 国产精品亚洲一区二区三区下载 | 性一交一乱一乱一区二区| 被几个大屌老外轮操| 亚洲精品国产综合一线久久| 男插女下面高潮视频| 美女嫩逼插进大屌| 国产精品视频一区二区三区八戒| 综合伊人久久在一二三区| 2021最新热播国产一区二区| 男人把昆吧放女人屁股里| 亚洲av一区二区在线看| 大鸡巴干浪穴视频| 国产 日韩 亚洲 一区| 色哟哟精品视频一区二区| 韩美国男人叉女人| 女人182毛片a级毛片| 男人把鸡巴插入女人| 精品人妻少妇一区二区三区不卡| 国产精品自在自线。| 欧美99热这里都是精品|