AI不再只“看得見”,它開始“看得懂”——不僅懂你在視頻中注視的具體位置,更懂你是誰,并據(jù)此做出精準(zhǔn)預(yù)測(cè)。這正是明略科技的研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的核心突破,該論文近日已被全球多媒體技術(shù)領(lǐng)域的旗艦會(huì)議ACM MM 2025正式接收,得到了廣泛關(guān)注。
這項(xiàng)創(chuàng)新成果的目標(biāo)看似單一:預(yù)測(cè)用戶在廣告視頻中的注視點(diǎn)。但其背后的技術(shù)矩陣堪稱“多模態(tài)AI的頂配組合”:大語言模型(LLM)、多模態(tài)學(xué)習(xí)、個(gè)體屬性建模、眼動(dòng)數(shù)據(jù)采集、高分辨率圖像處理與強(qiáng)化學(xué)習(xí)。
圖片來源:明略科技
當(dāng)它被置于“注意力即價(jià)值”的廣告營(yíng)銷場(chǎng)景中時(shí),一場(chǎng)真正的變革已悄然開啟。
個(gè)性化注意力預(yù)測(cè):廣告測(cè)量的下一張王牌
廣告最看重的,是“受眾是否看到了重要信息”,而不是廣告主“在廣告里放置了什么信息”。但這個(gè)“看”,卻沒有被真正精確地量化過。
過去,無論是焦點(diǎn)小組、A/B Test,還是后期行為追蹤,都屬于事后統(tǒng)計(jì),是對(duì)有限樣本的效果復(fù)盤。而明略科技的最新研究則帶來了新的解題方法:用AI模擬用戶的真實(shí)注視行為,提前預(yù)判人對(duì)廣告內(nèi)容的注意力分布,并實(shí)現(xiàn)個(gè)性化差異呈現(xiàn)。
它是如何做到的?明略科技以兩項(xiàng)基礎(chǔ)創(chuàng)新為支點(diǎn):一個(gè)是超大規(guī)模的真實(shí)眼動(dòng)數(shù)據(jù)集SPA-ADV;另一個(gè)是創(chuàng)新的注視點(diǎn)預(yù)測(cè)模型明敬PRE-MAP。
SPA-ADV數(shù)據(jù)集涵蓋了4500多名不同年齡段、性別的真實(shí)用戶對(duì)486個(gè)精選廣告視頻的細(xì)致注視記錄,包括眼球運(yùn)動(dòng)軌跡以及精確的注視點(diǎn)坐標(biāo)等真實(shí)視覺行為,為個(gè)性化顯著性建模提供了高質(zhì)量的基準(zhǔn)數(shù)據(jù)支持。
圖片來源:明略科技
這也為明敬PRE-MAP的“個(gè)性化預(yù)測(cè)”能力提供了豐富的“數(shù)據(jù)燃油”,使它不僅能夠預(yù)測(cè)“人會(huì)看哪里”,更能進(jìn)一步預(yù)判“一個(gè)30歲女性可能會(huì)在視頻第3秒看向畫面的哪個(gè)區(qū)域”。
這標(biāo)志著廣告評(píng)估領(lǐng)域,正迎來從“群體平均”到“個(gè)體洞察”的結(jié)構(gòu)性躍遷。
大模型的新任務(wù):從生成到認(rèn)知推理
與當(dāng)前大熱的文生圖、視頻生成不同,明敬PRE-MAP大模型的應(yīng)用不是為了生成內(nèi)容,而是為了“感知內(nèi)容,并推理人類視覺行為”。這正是多模態(tài)大模型邁向下一階段的關(guān)鍵能力:理解人類是如何感知世界的,從而更好地發(fā)揮人機(jī)協(xié)同的價(jià)值。
明敬PRE-MAP背后的建模邏輯很清晰:將用戶屬性(如年齡、性別)通過Prompt嵌入模型,配合高分辨率廣告視頻段,輸出用戶在該場(chǎng)景中可能產(chǎn)生的注視點(diǎn)坐標(biāo),并生成可視化熱圖。
從技術(shù)實(shí)現(xiàn)來看,明敬PRE-MAP拋棄了傳統(tǒng)的低分辨率特征圖上采樣重建方法,采用了“點(diǎn)式預(yù)測(cè)”機(jī)制,即直接輸出一幀圖像中用戶可能注視的若干個(gè)點(diǎn)。比起“模糊的熱區(qū)”,這種機(jī)制可以更真實(shí)、更精準(zhǔn)地還原人眼的真實(shí)運(yùn)動(dòng)軌跡。
圖片來源:明略科技
論文的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了這一點(diǎn)。與SUM、Transalnet等多個(gè)主流模型相比,明敬PRE-MAP在各項(xiàng)評(píng)估指標(biāo)上均表現(xiàn)出顯著優(yōu)勢(shì),其預(yù)測(cè)的注視點(diǎn)分布精準(zhǔn),邊緣與人眼的真實(shí)注視位置高度吻合。
隨著模型持續(xù)演進(jìn),未來的明敬PRE-MAP甚至可能明確指出:“該用戶的第一注視點(diǎn)是左上角人物的眼睛,第二注視點(diǎn)是右下角的品牌Logo,第三是中央字幕?!?/p>
這種高精度點(diǎn)式輸出,對(duì)廣告主而言價(jià)值巨大:它不只是“知道你是否在看”,而是“知道你先看哪、后看哪、忽略了什么”,并據(jù)此優(yōu)化廣告內(nèi)容,抓住更多注意力。
技術(shù)解構(gòu):精準(zhǔn)和個(gè)性化的雙重突破
明敬PRE-MAP模型的技術(shù)核心包括兩部分,分別解決了“個(gè)性化預(yù)測(cè)”“精準(zhǔn)定位”的技術(shù)難題。
一方面,模型通過多屬性點(diǎn)式注意力建模進(jìn)一步增強(qiáng)預(yù)測(cè)位置的精度,讓大模型更容易精確定位不同屬性人們的注意力焦點(diǎn);另一方面,模型通過C-GRPO機(jī)制讓預(yù)測(cè)結(jié)果更容易被清晰呈現(xiàn):
● 多屬性點(diǎn)式注意力建模(Multi-Attribute Point-Based Attention):基于多模態(tài)大模型(MLLMs),融合用戶屬性(如性別、年齡)與視頻語義內(nèi)容,引導(dǎo)模型在高分辨率視頻幀上直接預(yù)測(cè)個(gè)性化注視點(diǎn),提升預(yù)測(cè)的針對(duì)性與分辨率保真度。
● Consistency Group Relative Policy Optimization(C-GRPO):一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制,通過對(duì)預(yù)測(cè)點(diǎn)的空間一致性與格式規(guī)范進(jìn)行策略約束,進(jìn)一步增強(qiáng)個(gè)性化注視點(diǎn)預(yù)測(cè)的可控性與精度。
圖片來源:明略科技
廣告之外的更大圖景:把“人”的認(rèn)知反饋嵌入AI系統(tǒng)
明敬PRE-MAP的研究無疑是廣告測(cè)量領(lǐng)域的一劑強(qiáng)心針,但它背后的技術(shù)邏輯價(jià)值遠(yuǎn)不止于此。它提供了一套新的思路——AI系統(tǒng)應(yīng)當(dāng)學(xué)會(huì)感知、理解并模擬人類的主觀認(rèn)知反饋,并將其融入生成與推理中。
這對(duì)于AI Agent、推薦系統(tǒng)、游戲設(shè)計(jì)、教育內(nèi)容編排等不同場(chǎng)景同樣具有啟發(fā)意義。例如:
教育視頻如何根據(jù)不同年齡段學(xué)生的注意力模式優(yōu)化鏡頭?
游戲中的視覺引導(dǎo)如何為不同玩家群體進(jìn)行個(gè)性化設(shè)計(jì)?
短視頻封面生成系統(tǒng)能否優(yōu)先考慮不同用戶的視覺興趣點(diǎn)?
明敬PRE-MAP所構(gòu)建的高分辨率注視預(yù)測(cè) + 多模態(tài)大模型建模 + 可控輸出機(jī)制,為這些問題提供了新的啟示。
長(zhǎng)遠(yuǎn)來看,對(duì)包括廣告在內(nèi)的廣泛行業(yè)而言,它將使“創(chuàng)意”成為一個(gè)更可量化、可測(cè)試、可優(yōu)化的技術(shù)問題。對(duì)AI大模型的發(fā)展而言,它是將“人類感知”嵌入大模型的前瞻性嘗試。理想的未來圖景中,AI能夠理解人類的需求、意圖和情感,并提供相應(yīng)的支持與解決方案,人類也能更好地理解AI的內(nèi)容生成與決策過程,從而建立更加和諧有效的人機(jī)關(guān)系。
來源:有連云
重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂居財(cái)經(jīng)立場(chǎng)。 本文著作權(quán),歸樂居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請(qǐng)注明來源。聯(lián)系請(qǐng)發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】
樂居財(cái)經(jīng)APP
?2017-2025 北京怡生樂居財(cái)經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號(hào)院1號(hào)樓1層101內(nèi)3層S3-01房間756號(hào) 100016
京ICP備2021030296號(hào)-2京公網(wǎng)安備 11010502047973號(hào)