• 最近访问:
发表于 2026-07-03 22:48:31 股吧网页版
成本最高相差近20倍“大模型热”催生词元管理新市场
来源:经济参考报

  发一句“你好”消耗数万词元(Token),一个季度花光全年AI预算……大模型虽好,但很多用户已招架不住猛增的词元账单。近日,多份大模型评测报告首次新增成本维度,报告显示不同大模型完成同一任务的成本相差最高近20倍。

  业内人士认为,目前大模型的计费过程仍是“黑箱”,用户难以预测词元开支、审计词元费用或者评估投入产出。随着词元消耗仍将保持高速增长,词元成本管理需求旺盛,有望带来新商机。

  大模型决胜性价比

  一直以来,国内外各类大模型评测主要关注性能表现。近日,多份中文大模型评测报告中首次新增成本评测,让用户得以通过定价看清开支。

  6月30日,中文大模型评测机构SuperClue首次发布“Token成本象限图”,该象限维度由任务平均得分和平均每题价格来定义。结果显示,不同大模型的平均每题价格相差近20倍,任务平均得分最高相差超70%。

  其中,智谱GLM5.2(max)在任务得分和平均每题价格均为最高,领衔“高端质优”象限。小米集团的MiMo-V2.5-pro则以最低的平均每题价格和不俗的任务得分,领衔“经济适用者”象限。还有其他大模型分布在“超值领航者”和“溢价探索者”象限。

  据介绍,SuperClue本次测评了国内7个代表性大语言模型,测试任务是完成相同的工程问题,其间需驱动模型开展数十轮对话交互,逐步完成代码分析、修改与验证,最终得出不同模型的性价比、推理耗时、交互轮数和词元消耗数量。

  对于首次评测大模型性价比的缘由,SuperClue创始人徐亮告诉《经济参考报》记者,目前大模型变成了生产力工具,在关注模型效果的基础上,大众也关心调用词元的消耗情况以及最终完成任务的成本。

  不止评测机构,一些用户也开始关注大模型的实际使用成本。

  AI创业者习翔宇近期做了一场测试,他让多款国内外大模型重构一个静态网站,包含首页、知识图谱页、文章列表和上百篇文章详情页等内容。他最后发现,Claude跑一轮测试的成本超200元,而DeepSeek仅花费17.1元,其余大模型开支则在数十元到百余元不等,相差悬殊。

  多位业内人士告诉记者,很长时间里,用户往往只关注哪个大模型更强,但随着AI走进千行百业,词元开支不断增加,用户开始日趋关注实际成本。因此,未来针对大模型完成特定任务的成本评测会越来越多,以帮助用户更好地挑选合适的大模型。

  AI好用而账单难算

  各类评测开始关注词元成本的背后,是难以预测的AI开支和难以看懂的大模型账单。记者查阅多家大模型定价资料发现,AI计费过程对于多数用户无异于“黑箱”。

  例如MiMo-V2.5和DeepSeek的定价都是基于百万词元输入和输出,其中输入又分为缓存命中和缓存未命中,两者价格相差数十倍乃至上百倍。用户在后台仅能查阅词元消耗数或者调用次数。另一家大模型企业Kimi的后台里,只显示产品、模型、项目和API key的消费明细。

  不止个人用户看不清楚,连企业用户也算不明白。市场调研公司艾瑞咨询调查发现,从中型公司到年支出过亿元的集团企业,几乎没有一家能在初次沟通时说清AI成本的全貌。词元消耗以秒为单位增长,AI治理却近乎缺位,这一矛盾正在加剧。

  对于造成这一问题的缘由,艾瑞咨询相关负责人认为,词元消耗因为模型差异、提示词差异,相差数十倍乃至上百倍。一个失控的智能体几小时的词元就可能耗尽整月AI预算。而且词元消耗如何折算成业务产出,目前尚无标准。由于AI供应商多元化,账单天然存在碎片化问题,没有一张表能看清全貌。

  汇正财经执行总经理周荣圣长期关注AI领域,他告诉记者,企业使用AI相关服务的投入需要可溯源、可核算,才能向股东明确说明资金用途与价值。但是,当前大模型计价规则不够透明,一些厂商还将词元计价改为积分(credit)计价模式,缺乏可审计性和可解释性。用户不仅难以明确核算词元成本,更难以在财务审计中核算其投入产出价值。

  “目前确实没有词元成本评估机制或者事后审核机制。”咨询机构IDC中国研究总监卢言霞告诉记者,现在市场还处于混战状态,技术提供商希望获得更大市场份额和更高收入,整个行业尚未有序发展,因此还没有到可以评估的阶段。

  受此影响,词元消费“黑箱”反过来抑制了AI的发展。在经历了几个月的AI狂飙后,随着成本陡增,不少企业已经对词元开支踩下“刹车”。5月底以来,微软开始限制内部Claude Code许可;网约车平台Uber仅用4个月就耗尽了2026全年AI编程工具预算。不仅仅是国外,国内部分互联网巨头也开始为员工的词元开支设限,将原本不设限的词元“自助餐”,改为整体限额、团队共享额度。

  词元管理正当时

  随着AI走入千行百业,词元消耗仍将保持快速增长。IDC数据显示,按词元计算中国MaaS(模型即服务)市场规模,2025年同比2024年增长了16倍,预计2026年还将同比增长19.6倍。

  卢言霞建议,短期来看,目前模型选型还是效果第一、性价比第二,同时考虑部署模式、模型参数等因素。但从长远来看,企业应尽早建立词元成本的评估机制,避免业务规模扩张后出现成本失控的局面,例如调研清楚不同大模型的计价模式、供应商如何提供有效词元、输入输出如何控制。企业在建设智能体时,也应将词元消耗的可观测性、可统计性考虑在内。

  作为长期评测大模型的AI专家,徐亮建议,首先是结合场景需求进行针对性选择,如对效果要求高可优先选择GLM.5.2,如注重性价比则可优先选择Mimo 2.5或DeepSeek V4。其次是形成核算管理制度,例如持续记录AI工具的使用场景、词元成本、效率提升情况等信息,并进行周期性评估,也能有效挖掘高价值场景,并避免低效词元消耗。针对大众重点使用的场景,需开展综合评测,定期发布不同AI工具的效果、成本、推理效率的对比分析评测,以辅助决策。

  在此背景下,词元成本管理正成为新兴需求。近日,艾瑞咨询推出词元成本精益管理服务。艾瑞咨询相关负责人表示,多数企业尚未建立面向词元消耗的归因与效率评估机制,难以识别低效或重复调用。同时,词元成本优化也没有统一答案,企业需结合自身场景诊断。

  对于个人用户而言,符合个人需求更为重要。习翔宇经过多番评测后发现,目前行业主流评测榜单均以编程、长程任务、工具调用能力为核心评价维度,仅对程序员群体有参考价值。非编程类场景的大模型能力难以量化,市场也缺乏针对性的评测维度,因此普通用户选择时应以自身实际使用体验为核心标准,可以结合自身需求做好横向对比。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500