小米推出首款开源推理大模型:Xiaomi MiMo引领AI创新
小米推出首款开源推理大模型:Xiaomi MiMo引领AI创新

小米推出首款开源推理大模型:Xiaomi MiMo引领AI创新

发布于: 全文约758字
小米公司发布开源推理大模型「Xiaomi MiMo」,在推理能力上取得显著进展,并在数学推理和代码竞赛测评集上表现出色,超越多个人工智能领域现有模型。该模型通过预训练和后训练阶段的多层面创新,显著提升了强化学习潜力,并已全系列开源。

2025年4月30日,小米公司宣布开源其首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」。这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。

「Xiaomi MiMo」的诞生旨在探索如何激发模型的推理潜能,特别是在预训练增长见瓶颈的情况下。该模型在数学推理(AIME24-25)和代码竞赛(LiveCodeBench v5)公开测评集上表现出色,仅用7B的参数规模就超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

在强化学习方面,MiMo-7B的潜力显著领先于其他广泛使用的强化学习起步模型,如DeepSeek-R1-Distill-7B和Qwen2.5-32B。这一成就得益于MiMo在预训练和后训练阶段的多层面创新。在预训练阶段,MiMo着重挖掘富推理语料,并合成了约200B tokens的推理数据。训练过程中,MiMo进行了三阶段训练,逐步提升训练难度,总训练量达到25T tokens。

在后训练阶段,MiMo的核心是高效稳定的强化学习算法和框架。为此,MiMo提出了Test Difficulty Driven Reward策略,以缓解困难算法问题中的奖励稀疏问题,并引入Easy Data Re-Sampling策略,以稳定RL训练。此外,MiMo还设计了Seamless Rollout系统,使得RL训练加速2.29倍,验证加速1.96倍。

MiMo-7B全系列已开源,用户可在HuggingFace上找到相关模型:[XiaomiMiMo](https://huggingface.co/XiaomiMiMo)。

Sitemap.xml
© 2025 Juhe.ai
西安指尖漫步科技有限公司