華中科技大學、北京郵電大學等多所高校研究團隊近日聯(lián)合推出了名為Perception-R1(PR1)的多模態(tài)大語言模型,該模型成為首個在COCO2017驗證集上突破30AP的純多模態(tài)開源LLM,超越了YOLOv3和Faster-RCNN等傳統(tǒng)視覺模型的性能。
Perception-R1重點關注當下主流的純視覺任務(如計數(shù)、通用目標檢測)以及視覺語言任務(如grounding、OCR),通過探究基于規(guī)則的強化學習(rule-based RL)對模型感知能力的提升效果。目前,該項目的論文和代碼已完全開源,研究團隊希望為社區(qū)提供一個強大的基準,支持后續(xù)相關研究。
隨著OpenAI o3等模型的出現(xiàn),人工智能競賽已進入以"視覺推理"為代表的新階段。從GPT-4V到o3,短短兩年時間內(nèi),AI視覺理解能力取得了顯著進步。然而,現(xiàn)有多模態(tài)大語言模型(MLLM)如GPT-4o、Google的Gemini以及開源的Qwen-VL和LLaVA,雖然在一般視覺問答方面表現(xiàn)出色,但在需要精確物體定位、準確計數(shù)多個物體、復雜布局中文本識別或執(zhí)行復雜視覺推理的任務上仍存在明顯不足。
Perception-R1框架并非從頭構(gòu)建新模型,而是一個后訓練框架,旨在通過基于規(guī)則的強化學習顯著增強現(xiàn)有多模態(tài)模型(如Qwen2-VLInstruct-2B)的視覺感知能力。該框架使用Group Relative Policy Optimization(GRPO)技術來優(yōu)化模型的"感知策略",包括從圖像中提取視覺細節(jié)、執(zhí)行邏輯操作以及生成正確格式的輸出。
在實驗評測中,Perception-R1在多項視覺任務上取得了突破性表現(xiàn)。在視覺定位(RefCOCO/+/g)、OCR(PageOCR)、視覺計數(shù)(Pixmo-Count)以及目標檢測(COCO2017)等任務上,該模型均顯著超越了原始的Qwen2-VL-2B-Instruct基線,甚至在某些任務上接近專門設計的"專家"模型性能。特別是在COCO2017目標檢測任務上,Perception-R1達到了30.3的AP值,成為首個突破30AP的純多模態(tài)開源LLM。
研究團隊還進行了全面的消融實驗,探究了獎勵匹配、思考過程顯式化以及監(jiān)督微調(diào)與強化學習的優(yōu)劣等因素對模型性能的影響。實驗結(jié)果表明,Perception-R1具有良好的可擴展性,為后續(xù)大規(guī)模應用提供了實驗驗證。
Perception-R1的成功表明,當強化學習被精心適配到視覺任務的獨特特性時,可以成為提升大模型視覺感知能力的有效工具。該研究挑戰(zhàn)了視覺任務必須依賴語言推理的假設,強調(diào)了任務復雜性對強化學習效果的重要性,為構(gòu)建下一代智能感知AI系統(tǒng)奠定了關鍵基礎。