AI生图代替棚拍已不稀奇,不过它也常“弄巧成拙”,出现货品细节失真、手部关系错乱等硬伤。
兔展智能董事长兼CEO董少灵解释,这是因为视觉理解、生成、编辑这三个核心环节由不同模型独立完成,相当于模型只处理了图像却不理解内容,导致画面主体和结构很容易漂移。用户真正需要的不是一次性的随机出图,而是可编辑、可复用、可批量生产、可商用的内容资产。
针对这一痛点,兔展智能的解法是让模型先“看懂”再“动手”。其 UniWorld系列将上述三个环节统一到一个架构中,让模型先吃透物体结构、材质与空间关系,再精准生成,保证信息准确。
今年4月,兔展智能在广东省人工智能应用对接大会上正式发布了UniWorld-V2.5,这是UniWorld系列第三代产品,即将进入公测阶段。目前,该系列产品已在电商等场景中形成规模化应用。
视觉大模型从“玩具”走向“工具”的必经之路,已成为业界共识。UniWorld是这条路上起步较早的模型之一。同时,面对OpenAI、谷歌等巨头,兔展智能坚持聚焦商业确定性更强、交付链条更深的ToB和ToG场景,将十多年企业服务经验、真实客户场景和可落地产品相结合,形成闭环。
正是这一务实定位,让UniWorld系列得以快速走向商业落地。例如,兔展智能依托UniWorld推出AI商品图工具AnyReal。品牌方只需提供产品环拍素材,即可生成还原度达95%至98%的商品图,直接上架亚马逊等平台,成本直降80%,目前已服务数十个品牌。据悉,2025年,兔展智能AI商业化年签约额突破1亿元,月复合增长率超60%。
兔展智能的技术创新及规模化应用,与广东人工智能产业的生态优势密不可分。在董少灵看来,人机交互正经历根本性转变:从图形用户界面(GUI)走向意图界面(IUI)。因此,兔展智能将战略从UniWorld延伸至SkillsUI。“UniWorld是‘眼睛’,赋予AI理解物理世界的能力;SkillsUI是‘双手’,将感知结果通过动态生成可操作界面等方式,无缝输出至终端。两者协同,构成‘理解—生成—执行’的闭环。”董少灵表示。
具体来看,SkillsUI的运行逻辑是,把传统App、小程序的功能拆解成原子化Skill和标准化工作流,让用户通过自然语言调用底层服务,把多步跳转变成“边聊边办”。董少灵表示,“过去大家关注的是AI能生成什么、能回答什么;现在更多客户关心的是AI能否真正降本增效,能否进入到各领域具体的工作流。”
这套逻辑的落地能力,在资本市场得到了验证。今年5月,兔展智能宣布连续完成E、F轮数亿元人民币融资,此次融资后,企业将正式进行股份制改革,并计划于今年赴香港上市。董少灵表示,当前资本市场对AI的判断越来越理性,真正有价值的AI公司需要解答一个更本质的核心课题:把AI能力转化为企业真实可用、可交付、可复购、可规模化的生产力系统。