字节开源COMET技术革新：大模型效率飞跃，提速高达1.7倍

字节开源COMET技术革新：大模型效率飞跃，提速高达1.7倍

字节开源COMET技术革新：大模型效率飞跃，提速高达1.7倍

发布于：2025-03-13 20:56 全文约629字

字节跳动豆包大模型团队成功突破MoE架构关键瓶颈，开源COMET优化技术，显著提升大模型训练效率，降低成本。该技术已在字节跳动万卡集群实际应用，实现1.7倍效率提升及40%成本降低，具备高兼容性，支持主流大模型，并可与DeepSeek的DualPipe方案联合使用。此项开源技术为大模型领域带来新突破。

字节跳动旗下豆包大模型团队近日宣布，成功攻克混合专家模型（MoE）架构的关键瓶颈，并开源一项名为COMET的重大优化技术。该技术显著提升了大模型的训练效率，实现了高达1.7倍的效率提升，并有效降低了40%的训练成本。

图源备注:图片由AI生成，图片授权服务商Midjourney

据介绍，COMET技术已在字节跳动的万卡集群训练中得到实际应用，累计节省了数百万GPU小时的训练算力。与近期DeepSeek开源的DualPipe等MoE优化方案相比，COMET具有更强的兼容性和便捷性，能够像插件一样直接接入现有的MoE训练框架，支持业界主流大模型，无需对训练框架进行侵入式修改。

技术数据显示，引入COMET后，单个MoE层可实现1.96倍的加速，端到端平均效率提升1.71倍，且在不同并行策略、输入规模及硬件环境下均表现出稳定的性能。更值得关注的是，COMET还能够与DeepSeek的DualPipe方案联合使用，有望进一步大幅压缩模型训练成本。

这项技术的开源，无疑为大模型领域带来了新的突破，有望加速大模型的研发和应用。

论文地址:https://arxiv.org/pdf/2502.19811

开源地址:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519

COMET 混合专家模型(MoE) 豆包大模型 Midjourney

© 2025 Juhe.ai

西安指尖漫步科技有限公司