• 最近访问:
发表于 2026-06-25 17:07:50 股吧网页版
明略端侧模型上线Thinking模式:从单点模型到能力矩阵,重新理解明略的端侧叙事
来源:界面新闻

  近日,明略科技为其端侧GUI模型Mano-CUA上线了Thinking模式,新版本Mano-CUA-4B-2.0已在Hugging Face与ModelScope上线。这次升级用一句话说清就是:让AI从"看一眼屏幕就动手",变成"先想清楚多步怎么走,再动手"。

  别小看这一步。它直接抬高了一个对企业最关键的指标——成功率。据明略科技公布的实测,在100道真机macOS GUI任务中(MacBook Pro、Apple M5、16GB内存),Thinking模式让整体任务成功率较快速模式提升约9%;在更考验拆解与判断的中高难度任务上,提升达到约10%至13%。换句话说,那些过去端侧设备"做不稳"的复杂流程,现在开始能交给它了。

  更值得关注的是这件事发生在哪里:全程在本地设备上完成,数据无需上云。这恰好同时跨过了企业用AI替人干活的两道坎——复杂任务的可靠性(敢不敢交给它),和数据能不能不出门(合规上能不能用)。当业界都在比模型参数和榜单分数时,真正决定AI能不能在企业里落地的,往往是这两件"榜单之外"的事。Mano-CUA-4B-2.0这次补的,正是这块。

  这背后还藏着一个更大的命题:AI到底怎么才能"用得起、用得好"。下面分三层来看——它对企业、对资本市场、对整个行业,分别意味着什么。

  对企业:端侧GUI Agent正跨过"生产可用"的门槛

  过去一年,让AI直接看懂并操作电脑界面(业界称Computer Use或GUI Agent)成为智能体落地的热门方向。难点在于,真实业务往往是多步骤、跨界面、需要动态判断的流程,Agent点错一步,后续就可能全盘偏离——这正是它在演示里好用、一进真实业务就不敢用的根源。

  作为一款GUI VLA(视觉-语言-动作)模型,Mano-CUA具备对图形界面的感知、理解、规划、操作与验证能力,可通过纯视觉方式直接操控桌面软件、网页界面以及更复杂的图形化工作流。Thinking模式的价值,在于让模型执行前进行更充分的任务拆解与推理判断:面对一个跨多个软件、需要中途判断的流程,它会先在"脑子里"把步骤想清楚、对可能的岔路做预判,再动手。前面提到的9%与10%–13%的成功率提升,正来自这种"先规划、再执行"的能力。

  更关键的差异在隐私与合规。Mano-CUA支持在Apple M4/M5芯片设备上本地运行,推理过程无需将数据上传云端。对金融、政务、医疗、制造等对数据出域较为敏感的行业,这往往不是加分项,而是能不能用的前提。在断网、本地部署或隐私敏感的环境下,端侧设备依然能承担较复杂的GUI自动化任务,这是端侧路线相较云端方案的一处结构性差异。

  此外,纯视觉操作还降低了落地门槛。由于不必依赖目标系统开放API,面对大量没有标准接口的老旧业务系统,Agent也能像人一样看着屏幕操作,省去了企业自动化中常被忽视的接口适配成本。结合本地部署,企业得以在办公自动化、软件操作、私有化业务流程等场景中,以相对可控的成本构建自己的智能体应用。

  对资本市场:端侧路线背后,是一道关于AI商业化的现实考题

  跳出产品本身,端侧智能体的进展也为观察AI商业化提供了一个值得关注的视角。

  当前大模型的成本结构与互联网时代存在明显差异。互联网生意的边际成本趋近于零,而大模型云端推理每一次调用都要消耗算力与电力,调用规模越大成本越高,更接近电力或制造业的逻辑。这也是市场对算力环节给出较高确定性估值的底层原因之一。在这一背景下,把推理能力下沉到端侧设备,被越来越多从业者视为对冲推理成本、提升单位算力产出效率的一条现实路径。

  明略科技在端侧的布局正落在这条线索上。此次明略也正式宣布,来源项目Mano-P由单一模型升级为面向端侧的统一模型序列,未来还将持续发布覆盖不同参数量级、不同模态的端侧模型,试图打造一个开箱即用的端侧模型工具箱。这一动作透露出的思路,是从"做一个跑分领先的模型"转向"建一套可持续迭代的端侧能力矩阵"——后者更接近基础设施的逻辑,也更可能形成长期价值。

  值得客观看待的是,端侧智能体仍处商业化早期,可对标的成熟上市样本有限,真实场景中的规模化效果仍需时间验证。但这一方向所指向的命题——如何在控制成本的前提下,让AI在企业真实环境中可靠地完成工作——正是当下AI产业从"能不能用"走向"用得起、用得好"的关键所在。对于试图在这一命题上给出系统性答案的公司,市场或许需要一套不同于"比拼模型参数"的视角去理解其价值。

  对行业:端侧、GUI操作、模型序列,三条线索同时收敛

  把视野放到行业,会发现端侧智能体正成为越来越多团队共同投入的方向,明略并不孤单。

  今年5月,面壁智能开源了1.3B参数的端侧多模态模型MiniCPM-V 4.6,主打小参数、低内存占用,据其披露仅需约6GB内存即可在手机等终端运行;字节跳动的GUI Agent技术UI-TARS,则据公开报道正在向终端设备渗透。不同玩家路径各异:有的侧重模型层的参数效率,有的依托自有终端入口分发,明略则更强调端侧模型能力与协作网络的全栈打通。

  与此同时,衡量Agent操作电脑能力的权威基准OSWorld,业界最好成绩已逼近80%,标志着智能体正越过"能不能操作电脑"的临界点。能力问题趋于解决后,竞争焦点正从"单一模型谁更强",转向"谁能提供一整套可持续迭代、开箱即用的端侧能力"——竞争单位从一个模型,升级为一套模型序列加配套生态。单点模型容易被追平,成体系的生态才更可能形成路径依赖。

  在这条赛道上,明略的差异化在于它试图打通的是"端侧模型—推理能力—协作网络"的全栈链路。Mano-CUA负责看懂并操作界面,Thinking模式让它从"能演示"走向"能可靠完成",而Mano-P序列化则意味着这套能力可以持续扩展、覆盖更多场景。这也呼应了一个朴素判断:模型跑分是入场券,而非护城河;真正拉开差距的,是长链路任务的稳定性、工具调用的容错能力,以及企业级落地的工程化水平——这些靠刷榜单解决不了,本质是系统工程与长期迭代的结果。

  当Agent学会"先想再动手",它就向"从演示工具变成生产力工具"迈进了一步。端侧让它更可信,Thinking让它更可靠。对企业,这意味着AI能在自己的设备上、隔着隐私墙,可靠地把活干完;对行业,这是智能体从"秀能力"转向"拼落地"的一个注脚;而对资本市场,它提示的或许是一个更根本的问题——衡量一家AI公司的价值,除了模型有多强,还要看它能不能让AI在真实世界里,用得起、也用得好。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500