• 最近访问:
发表于 2025-10-21 22:59:10 股吧网页版
合合信息推出“多模态文本智能技术”方案 解决跨模态信息处理难题
来源:上海证券报·中国证券网 作者:陈梦娜 朱洁莹

K图 688615_0]

  上证报中国证券网讯(记者陈梦娜实习生朱洁莹)近期,第八届中国模式识别与计算机视觉学术会议(PRCV 2025)顺利举行。在大会的“多模态文本智能大模型前沿技术与应用”论坛上,合合信息推出“多模态文本智能技术”方案。该方案可通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解”,赋予模型真正的文本“阅读理解”能力。

  多模态指利用多种不同形式或感知渠道的信息进行表达、交流和理解的方式,数据模态包括文本、图像、音频、视频等。2025年,Gartner人工智能技术成熟度曲线显示,多模态AI将在未来五年成为各行业提升所有应用和软件产品功能的核心技术。

  为了助力大模型实现跨越模态的推理能力,哈尔滨工业大学计算学部长聘教授、博士生导师车万翔重点分享了“多模态思维链”技术。该技术将推理逻辑分解为一系列可解释的跨模态推理步骤,最终生成更为精准和可靠的结论。南开大学教授周宇介绍了一种系统化的OCR幻觉缓解方案,为多模态大模型的可视文本感知能力提升提供了有效路径。

  合合信息图像算法研发总监郭丰俊重点分享了文本智能技术的创新应用,帮助用户解决复杂场景下的文档图像问题。小红书hi lab团队算法工程师燕青结合行业实践,分享了一款基于单视觉语言模型的多语言文档布局解析工具“dots.ocr”。

  从文字、图像到视频,无论模态如何演变,其所承载的文本信息始终是AI理解世界的基座。实现具备自主感知、认知与决策能力的通用人工智能(AGI),首要前提是让机器充分理解作为知识载体的“文本”。基于此,合合信息推出“多模态文本智能技术”方案,将技术处理对象从传统的文档(如PDF、Word等格式文件)延伸至多种承载文本信息的媒介,无论是论文、财报还是视频、自然场景,都能成为系统的理解对象。

  目前,“多模态文本智能技术”方案已将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成了从感知到认知再到决策的技术实现路径。方案已在金融、医药、教育等专业领域开展应用,通过对复杂文本的精准感知、综合理解和可靠决策,实现对业务流程的智能重构。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500