AI: 技术获||全球顶级学术会议认可 小米 2 篇论文入选 ICCV 2025

2025-07-29 16:03:24      来源:电视猫

IT之家7月8日消息,据小米技术消息,计算机视觉国际大会ICCV2025论文录用结果公布,小米两篇论文凭借创新性研究成果成功入选:视频理解大模型核心技术Q-Frame,推出行业首个动态帧选择与分辨率自适应框架,实现即插即用;持续学习框架AnalyticSubspaceRouting(Any-SSR),成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。

据介绍,计算机视觉国际大会ICCV与国际计算机视觉与模式识别会议CVPR、欧洲计算机视觉国际会议ECCV并称为计算机领域世界三大顶级学术会议,每两年举办一次。其中,ICCV2025年投稿量达11239篇,录用率为24%。上述两篇论文代表了小米AI团队在基座大模型领域的最新探索成果,其中视频理解大模型核心技术Q-Frame由小米AI团队全面自研,大模型持续学习框架Any-SSR由小米AI团队联合华南理工大学攻关。

全自研视频理解大模型核心技术Q-Frame

在视频理解大模型(Video-LLMs)的研究中,小米AI团队针对传统“均匀帧采样”处理方式存在时间碎片化信息丢失、盲目采样及算力浪费等问题痛点,推出全自研的Q-Frame核心技术,该成果以论文《Q-Frame:Query-awareFrameSelectionandMulti-ResolutionAdaptationforVideo-LLMs》入选ICCV2025。

Q-Frame作为视频理解大模型核心技术,是行业首个动态帧选择与分辨率自适应框架,也是首个无需训练,市面上各类视频理解大模型基座均可即插即用的算法框架。Q-Frame拥有三大行业首次创新,能够精准理解视频内容与用户问题,通过精准捕捉跟用户问题最相关的视频关键内容,将有效信息量提升5倍:

跨模态查询检索(Cross-modalQueryRetrieval,CQR)

查询感知帧选择(Query-awareFrameSelection,QFS)

多分辨率自适应(Multi-ResolutionAdaptation,MRA)

在MLVU评测集上,Q-Frame使Qwen2-VL的理解准确率从55.5%提升至65.4%;在LongVideoBench上,让GPT-4o的准确率从53.3%提升到58.6%。此外,其多分辨率自适应特性可根据内容重要性和查询需求动态调整帧分辨率,避免算力浪费。

通过采用动态查询感知帧选择和多分辨率自适应,Q-Frame还有效解决了「均匀帧采样」策略下时间碎片化的信息丢失、问题无感知的盲目采样和分辨率一刀切的算力浪费三大难题。与传统均匀选帧、统一处理方式不同,在有限计算资源下,Q-Frame可使模型更高效准确理解视频。

此外,Q-Frame具有即插即用(plug-and-play)的特点,可与市场上现有的各类视频理解大模型兼容,无论是开源模型还是闭源模型,无需对模型进行额外的训练或微调。以VILA-V1.5和Qwen2-VL等开源模型为例,在集成Q-Frame后,这些模型在视频理解任务上的性能均得到了显著提升。同样,对于闭源的GPT-4o模型,Q-Frame也展现出了良好的兼容性,进一步证明了其广泛的适用性。

Q-Frame在小米「人车家全生态」战略中有着多元的应用场景,目前正在持续探索和落地:小米YU7发布时提到的哨兵模式中,能够分清楚普通的风吹草动和可能带来剐蹭、碰撞的危险行为;智能家居中,能够在监控画面中找到最关键的画面,帮助用户解答问题;在小爱视频问答场景中,可以直接定位到视频中能够解答问题的片段开始播放等。

大模型持续学习框架Any-SSR

在大语言模型(LLMs)持续学习(ContinualLearning,CL)领域,往往会因新任务的学习而导致对旧任务知识的遗忘,即灾难性遗忘问题。小米AI团队联合华南理工大学针对这一难题开展研究,其成果《AnalyticSubspaceRouting:HowRecursiveLeastSquaresWorksinContinualLearningofLargeLanguageModel》成功入选ICCV2025。

Any-SSR框架作为行业首个将递归最小二乘法(RecursiveLeastSquares,RLS)引入大语言模型持续学习的技术框架,通过分析路由机制,动态地把不同任务分配到独立子空间学习,避免任务间知识干扰,创新性解决了大语言模型持续学习中灾难性遗忘问题。同时,利用低秩适应(Low-RankAdaptation,LoRA)与分析路由相结合的方式,实现了新旧知识的无缝整合与动态学习。

在一系列技术创新的基础上,Any-SSR方法实现了“近乎完美”的知识保留(即不遗忘),同时能无缝地学习新知识。在实验中,Any-SSR在TRACE基准测试上的表现显著优于其他方法,包括多任务学习(MTL)等,不仅在整体性能(OP)上取得了优异成绩,还实现了零反向知识转移(BWT)。

IT之家从小米技术获悉,过去五年,小米集团研发投入约1020亿元,在2025年的300亿研发投入中,大约有四分之一将被用于AI相关方向。未来五年(2026-2030年),小米还将在核心技术赛道再投入2000亿元。

  世界经济论坛官网17日刊文称,中国已成为全球最大的电动汽车市场,中国车企生产的电动汽车占全球电动汽车总产量的一半以上。而在这一市场上,墨菲和其他分析师认为,美国车企当下很难抵挡中国自主品牌的实力。墨菲说,消费者现在对中国自主品牌的“忠诚度”很强,尤其是在美国对中国电动汽车征收超过100%的关税后,这种“忠诚度”可能会变得更加强烈。

责编:祢芦雪编辑

边工新人

  据国际网球联合会发布的《2021年全球网球报告》,2021年全球参与网球运动的人口有8718万人,中国以1992万人成为全球网球参与人数排名第二的国家,仅次于美国,占全球总网球人口的22.9%。同时,中国网球场的数量也为全球第二,达49767个。网球教练则以11350人位居全球第五。

纪凌尘还留着年前的画

  据介绍,根据气象监测情况,今年4月下旬以来,全省平均降水量26.6毫米,较常年同期偏少75%,截至6月13日,大部分地区连续无有效降水日数超60天,郑州等10个地市在70天以上;平均气温23.2度,较常年同期偏高1.8度。

曾黎四个寥寥无几的粉丝

  “当年李娜一度手握13个国内外知名品牌代言,而郑钦文在奥运夺冠之前已有10个代言品牌。”纪宁认为,网球目前在中国的热度已今非昔比,李娜时代已奠定的中国网球经济的热度,在郑钦文夺冠后会被逐渐引爆。纪宁还表示,网球作为全球顶级的职业体育和商业体育项目,正逐步释放巨大的产业经济空间。

伊朗对以发动大规模袭击

  “台湾民意基金会”今日(6月18日)公布最新民调,台湾地区领导人赖清德声望为48.2%,相较上个月重挫 9.8 个百分点。该基金会董事长游盈隆表示,在台湾,一个百分点代表 19.5 万人,10 个百分点代表近 200 万人,上任不到一个月,流失近200万人支持,是一个严重的警讯。

及老板姚金成等被执行亿

  笔者跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。

山东人将爆改

  要解决这一问题,放松税收征管并非良策,因为这不仅涉及税务机关工作人员渎职问题,也影响社会公平,毕竟各地税务机关征管力度不一,将影响企业公平竞争,有违全国统一大市场构建。/p>

余名中国公民已从伊朗安全撤离

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。/p>

李一桐请喝水的漂亮姐姐

  2019年9月,国务院办公厅印发《关于促进全民健身和体育消费推动体育产业高质量发展的意见》,其中提到推动体育赛事职业化,支持发展体育经纪人队伍,挖掘体育明星市场价值。2019年12月,国家体育总局发布废止部分规范性文件的通知,《关于对国家队运动员商业活动试行合同管理的通知》等限制运动员商业活动的规定被废止。曾文莉认为,即便如此,目前国内体育经济的价值还有待充分释放。她对已走上职业化道路多年的网球充满希望,认为网球市场可能是一个突破口。