与上一代模型类似,MiMo-V2.5全系列同样是为智能体场景打造,MiMo-V2.5-Pro专为长难Agent任务打造,MiMo-V2.5可覆盖绝大多数通用Agent场景
智东西体验了MiMo-V2.5-Pro,让其“制作一个3D横版格斗游戏”,MiMo-V2.5-Pro在几分钟内、写了1123行代码,就生成了“龙虎格斗游戏”
该游戏界面的血条、双方角色名、倒计时、对战提示清晰,还包含命中火花、格挡碎片、镜头震动+命中停顿等反馈系统,具备一定可玩性,但人物角色造型简单,除颜色和帽子几乎没差异
▲龙虎格斗游戏界面有意思的是,今年3月,小米MiMo-V2-Pro曾以匿名模型Hunter Alpha的身份现身OpenRouter平台,一度被开发者误认为是即将发布的DeepSeek V4。如今小米新一代MiMo-V2.5推出,又正值DeepSeek V4被传出将于本周发布
Xiaomi MiMo开放平台:https://platform.xiaomimimo.comXiaomi MiMo Studio体验地址:https://aistudio.xiaomimimo.com/#/c01.MiMo-V2.5-Pro:专攻长难智能体任务4.3小时搞定本科生数周项目小米官方称,MiMo-V2.5-Pro是小米MiMo迄今最强大模型,在通用智能体能力、复杂软件工程以及长程任务等维度上,能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型相当,相较上一代模型MiMo-V2-Pro提升
基于小米MiMo团队开发的评估套件MiMo Coding Bench,MiMo-V2.5-Pro与Claude Opus 4.6的差距进一步缩小,得分分别为73.7分和77.1分,MiMo-V2-Pro是71.5分
有推特网友用此前的网红问题实测了MiMo-V2.5-Pro,其问题是“我想去洗车,洗车店离我50米远,我应该走着去还是开车去”,MiMo-V2.5-Pro不负众望,给出了正确答案。小米MiMo放出了几个MiMo-V2.5-Pro的实操案例。首先是“用Rust实现完整的SysY编译器”
在各项的具体分数中,模型在Koopa IR、RISC-V后端、性能优化上都拿到了满分,首次编译实现了59%的冷启动通过率,这意味着在跑任何测试之前,架构是对的。在第512轮,该模型一次重构令lv9/riscv回退了两个测试点;模型自行诊断、恢复、继续推进
这一任务是北京大学《编译原理》课程项目,北大本科生通常需要数周时间才能完成,MiMo-V2.5-Pro用时4.3小时、经过672次工具调用完成,在隐藏测试集上取得满分233分。第二个官方案例是开发视频编辑