字节跳动升级发布全新多模态大模型,对标谷歌 Gemini 2.5 Pro 技术挑战
字节跳动升级发布全新多模态大模型,对标谷歌 Gemini 2.5 Pro 技术挑战

字节跳动升级发布全新多模态大模型,对标谷歌 Gemini 2.5 Pro 技术挑战

发布于: 全文约788字
字节跳动Seed团队发布多模态大模型Seed1.5-VL,经3万亿tokens预训练,展现卓越的多模态理解和推理能力,性能与谷歌Gemini2.5Pro相当,在60个基准测试中38个达到最优性能。模型适用于交互式应用,但在细粒度视觉感知和高层次推理任务上存在挑战。该模型已在火山引擎开放API供用户体验。

在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。

与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解,并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示,尽管 Seed1.5-VL 的激活参数仅为200亿,但在60个公开评测基准中,Seed1.5-VL 在38个基准测试中达到了最新最优性能(SOTA),其中包括在19项视频基准测试中赢得14项,以及7个 GUI(图形用户界面)代理任务中的3项。

在具体能力方面,Seed1.5-VL 展现了卓越的视觉推理、图像问答和视频理解等能力。在与智能体相关的任务中,该模型在7个 GUI 任务中取得了 SOTA 成绩。此外,Seed1.5-VL 在设计上简化了架构,降低了计算需求,使其更加适合交互式应用,能够在 PC 和手机等不同平台上顺利完成复杂任务,比如收集和处理信息。

不过,Seed1.5-VL 仍面临一些挑战。在细粒度视觉感知方面,模型在目标计数、图像差异识别和复杂空间关系解释时遇到了一些困难,尤其是在处理不规则排列、颜色相似或部分遮挡的情况下。此外,模型在高层次推理任务上,有时会出现无根据的假设或不完整的响应,表明其在这些任务中还有提升空间。

尽管如此,Seed1.5-VL 的发布标志着字节跳动在多模态技术上的持续进步。该模型目前已在火山引擎上开放 API,用户可以直接体验这一新技术。

Sitemap.xml
© 2025 Juhe.ai
西安指尖漫步科技有限公司