AI模型基准测试费用飙升:单个评估成本逼近3000美元
AI模型基准测试费用飙升:单个评估成本逼近3000美元

AI模型基准测试费用飙升:单个评估成本逼近3000美元

发布于: 全文约608字
本研究报告指出,OpenAI的推理模型o1在基准测试上的成本远超非推理模型GPT-4o,引发了对AI评估可持续性和透明度的关注。成本差异源于推理模型生成的大量标记,导致独立验证模型性能的费用显著增加,同时免费或补贴访问可能影响评估客观性。

根据第三方AI测试机构Artificial Analysis的数据,评估OpenAI的o1推理模型在七种流行基准测试上需花费2,767.05美元,而其非推理模型GPT-4o仅需108.85美元。这一显著差异引发了关于AI评估可持续性和透明度的讨论。

推理模型,即能够逐步"思考"问题解决方案的AI系统,虽然在特定领域表现出色,但其基准测试成本远高于传统模型。Artificial Analysis评估约十几个推理模型总计花费了5,200美元,几乎是分析80多个非推理模型花费(2,400美元)的两倍。

图源备注:图片由AI生成,图片授权服务商Midjourney

成本差异主要源于推理模型生成的大量标记。例如,o1在测试中生成了超过4400万个标记,约为GPT-4o的八倍。随着基准测试越来越复杂,评估现实世界任务的能力,加上顶级模型每单位标记成本的上涨(如OpenAI的o1-pro每百万输出标记收费600美元),独立验证这些模型性能变得极其昂贵。

尽管一些AI实验室为基准测试机构提供免费或补贴访问,但专家担忧这可能损害评估的客观性。General Reasoning的CEO Ross Taylor质疑:"从科学角度看,如果你发表了一个没人能用相同模型复制的结果,那它还能算是科学吗?"

Sitemap.xml
© 2025 Juhe.ai
西安指尖漫步科技有限公司