野生DeepSe:ek火了 (速度,碾压)官方版 权重开源

2025-07-25 13:46:17      来源:烟台大众网

机器之心报道

没等来DeepSeek官方的R2,却迎来了一个速度更快、性能不弱于R1的「野生」变体!

这两天,一个名为「DeepSeekR1T2」的模型火了!

这个模型的速度比R1-0528快200%,比R1快20%。除了速度上的显著优势,它在GPQADiamond(专家级推理能力问答基准)和AIME24(数学推理基准)上的表现均优于R1,但未达到R1-0528的水平。

在技术层面,采用了专家组合(AssemblyofExperts,AoE)技术开发,并融合了DeepSeek官方的V3、R1和R1-0528三大模型。

当然,这个模型也是开源的,遵循MIT协议,并在HuggingFace上开放了权重。

HuggingFace地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

经过进一步了解,我们发现:DeepSeekR1T2是德国一家AI咨询公司「TNG」推出的,模型全称为「DeepSeek-TNGR1T2Chimera」(以下简称R1T2)。

该模型除了前文提到的在智力水平和输出效率之间实现完美平衡之外,相较于这家公司的初代模型「R1TChimera」,智力大幅跃升,并实现了突破性的think-token一致性。

不仅如此,即使在没有任何系统提示的情况下,该模型也能表现稳定,提供自然的对话交互体验。

在评论区,有人误以为这个模型出自DeepSeek官方,并且认为他们是不是也在走相同的路线:给模型起各种名称,就是不用主系列下一代版本号?

更多的人认可该模型「找到了智能与输出token长度之间的最佳平衡点,并且提升了速度」,并对该模型在现实世界的表现充满了期待。

模型细节概览

从HuggingFace主页来看,R1T2是一个基于DeepSeekR1-0528、R1以及V3-0324模型构建的AoEChimera模型。

该模型是一个采用DeepSeek-MoETransformer架构的大语言模型,参数规模为671B。

R1T2是该公司4月26日发布的初代模型「R1TChimera」的首个迭代版本。相较于利用双基模型(V3-0324+R1)的初代架构,本次升级到了三心智(Tri-Mind)融合架构,新增基模型R1-0528。

该模型采用AoE技术构建,过程中利用较高精度的直接脑区编辑(directbrainedits)实现。这种精密融合不仅带来全方位提升,更彻底解决了初代R1T的token一致性缺陷。

团队表示,R1T2对比其他模型具备如下优劣:

与DeepSeekR1对比:R1T2有望成为R1的理想替代品,两者几乎可以通用,并且R1T2性能更佳,可直接替换。

与R1-0528对比:如果不需要达到0528级别的最高智能,R1T2相比之下更加经济。

与R1T对比:通常更建议使用R1T2,除非R1T的特定人格是最佳选择、思考token问题不重要,或者极度需求速度。

与DeepSeekV3-0324对比:V3速度更快,如果不太关注智能可以选择V3;但是,如果需要推理能力,R1T2是首选。

此外,R1T2的几点局限性表现在:

R1-0528虽推理耗时更长,但在高难度基准测试中仍优于R1T2;

经SpeechMap.ai(由xlr8harder提供)测评,R1T2应答克制度(reserved)显著高于R1T,但低于R1-0528;

暂不支持函数调用:受R1基模型影响,现阶段不推荐函数调用密集型场景(后续版本可能修复);

基准测试变更说明:开发版由AIME24+MT-Bench变更为AIME24/25+GPQA-Diamond测评体系,新体系下R1与初代R1T的分差较早期公布数据更大。

最后,关于R1T2中重要的AoE技术,可以参考以下论文。

论文标题:AssemblyofExperts:Linear-timeconstructionoftheChimeraLLMvariantswithemergentandadaptablebehaviors

  针对近期持续高温干旱对农业生产造成的不利影响,农业农村部在前期发布预警信息的基础上,于6月11日对河北、山西、江苏、安徽、山东、河南、陕西等省启动农业重大自然灾害四级应急响应。

责编:班梅风编辑

婚检查出重大疾病医院仅告知本人

  乌鲁木齐不缺国际和地区航线。2024年,乌鲁木齐机场累计运营定期客货运输航线共240条。其中,国际定期客运航线26条,与高加索地区三国与中亚五国实现全部通航,通航中亚航点数量为国内十大枢纽机场之首。

卵巢癌晚期钢琴老师丁丁离世

  针对目前的旱情,河南省水利厅于6月14日17时将水旱灾害防御(抗旱)Ⅳ级应急响应提升至Ⅲ级,并密切监视雨情、水情、旱情,科学精准调度水利工程,加强灌溉用水管理,细化落实各项供水保障措施,确保城乡居民饮水安全,最大程度减轻干旱灾害损失。

天热出汗会消耗脂肪吗

  第三,新的台行政机构刚上路,即遇上立法机构改革风暴,尚无亮丽表现。再加上若干“部会”状况不少,屡成媒体议论焦点,如台内务主管部门、经济主管部门、“海委会”等。

以色列全境响防空警报

  因此在不断强化税收征管的同时,应该同步适度推进税制改革,适度降低名义税率,让企业实际税负维持在一个合理水平,同时国家财政收入也并不会由此减少,进而实现良性循环。

美国型钻地弹仅次于核武器

  6月13日、14日,河南多地发布人工增雨公告。提醒:任何组织和个人若发现未爆炸或爆炸不完全弹头、弹药碎片或火箭弹残骸,切勿擅自移动、藏匿、拆解和损毁等,请立即报告当地政府或人工影响天气有关部门,或者立即拨打110向当地公安部门报警。

年净网护网专项工作部署会召开

  张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。/p>

歌手顺序

  博汇股份被要求补税5亿元,则是因为公司生产的重芳烃衍生品被税务部门认定需要按照重芳烃缴纳消费税,博汇股份对此不认同,最终是否补税、如何补税等仍有待税企双方良性沟通。/p>

清华就北语女教授被树砸身亡致歉

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。