GLM-4.1V-9B-Thinking標(biāo)志著GLM系列視覺(jué)模型實(shí)現(xiàn)從感知走向認(rèn)知的關(guān)鍵躍遷。
據(jù)IPO早知道消息,GLM-4.1V-9B-Thinking憑借9B的模型尺寸,日前成功登頂HuggingFace Trending第一。
作為一款支持圖像、視頻、文檔等多模態(tài)輸入的通用推理型大模型,GLM-4.1V-Thinking專為復(fù)雜認(rèn)知任務(wù)設(shè)計(jì)。它在 GLM-4V 架構(gòu)基礎(chǔ)上引入“思維鏈推理機(jī)制(Chain-of-Thought Reasoning)”,采用“課程采樣強(qiáng)化學(xué)習(xí)策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系統(tǒng)性提升模型跨模態(tài)因果推理能力與穩(wěn)定性。
其輕量版 GLM-4.1V-9B-Thinking 模型參數(shù)控制在10B級(jí)別,在兼顧部署效率的同時(shí)實(shí)現(xiàn)性能突破。該模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28項(xiàng)權(quán)威評(píng)測(cè)中,有23項(xiàng)達(dá)成10B級(jí)模型的最佳成績(jī),其中18項(xiàng)更是持平或超越參數(shù)量高達(dá)72B的Qwen-2.5-VL,充分展現(xiàn)了小體積模型的極限性能潛力。
通過(guò)有效的混合訓(xùn)練,GLM-4.1V-9B-Thinking融合了豐富的多模態(tài)模型能力,包括但不限于:
視頻理解:能夠解析最長(zhǎng)兩小時(shí)的視頻內(nèi)容,通過(guò)推理對(duì)視頻中的時(shí)間、人物、事件和邏輯關(guān)系進(jìn)行準(zhǔn)確分析;
圖像問(wèn)答:對(duì)圖像中的內(nèi)容進(jìn)行深入分析和解答,具備較強(qiáng)的邏輯能力和世界知識(shí);
學(xué)科解題:支持對(duì)數(shù)學(xué)、物理、生物、化學(xué)等學(xué)科問(wèn)題的看圖解題,通過(guò)推理給出詳細(xì)的思考過(guò)程;
文字識(shí)別:對(duì)圖片和視頻中的文字和圖表內(nèi)容進(jìn)行準(zhǔn)確抽取和結(jié)構(gòu)化輸出;
文檔解讀:對(duì)金融、政務(wù)、教育等領(lǐng)域的文檔內(nèi)容進(jìn)行準(zhǔn)確的原生理解、抽取、提煉和問(wèn)答;
Grounding:識(shí)別圖片中的特定區(qū)域并抽取坐標(biāo)位置,支持各種需要定位信息的下游任務(wù);
GUI Agent:識(shí)別網(wǎng)頁(yè)、電腦屏幕、手機(jī)屏幕等交互界面元素,支持點(diǎn)擊、滑動(dòng)等指令執(zhí)行能力;
代碼生成:能夠基于輸入的圖片文字內(nèi)容自動(dòng)編寫(xiě)前端代碼,看圖寫(xiě)網(wǎng)頁(yè)。
某種程度上而言,GLM-4.1V-9B-Thinking標(biāo)志著GLM系列視覺(jué)模型實(shí)現(xiàn)從感知走向認(rèn)知的關(guān)鍵躍遷。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
本文來(lái)源:IPO早知道
來(lái)源:IPO早知道
重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂(lè)居財(cái)經(jīng)立場(chǎng)。 本文著作權(quán),歸樂(lè)居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開(kāi)傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請(qǐng)注明來(lái)源。聯(lián)系請(qǐng)發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】
樂(lè)居財(cái)經(jīng)APP
?2017-2025 北京怡生樂(lè)居財(cái)經(jīng)文化傳媒有限公司 北京市朝陽(yáng)區(qū)西大望路甲22號(hào)院1號(hào)樓1層101內(nèi)3層S3-01房間756號(hào) 100016
京ICP備2021030296號(hào)-2京公網(wǎng)安備 11010502047973號(hào)