优化大模型长文解析技术 百度Unlimited OCR开源5天Star破万
来源:上海证券报·中国证券网
上证报中国证券网讯(记者罗茂林)近日,百度正式发布并开源端到端OCR模型Unlimited OCR。模型发布后迅速获得全球开发者关注,发布次日即登顶GitHub Daily Trending榜、Python榜。随后热度持续攀升,GitHubStar仅5天就突破1万,跻身GitHub现象级爆款项目行列,在HuggingFace全球模型总趋势榜和多模态模型趋势榜也均排名第一,实现GitHub、HuggingFace四榜第一。
Unlimited OCR面向长文档解析场景打造,总参数规模3B、推理时激活参数仅约570M,该模型推动了长文档解析技术向前迈出关键一步。据悉,过去OCR模型面对书籍、论文、报告等长文档时,通常需要采用“逐页解析+结果拼接”的工程方案,随着输出内容不断增长,解码阶段的KV Cache持续膨胀,推理速度和显存成本也随之增加。
此次百度提出Reference Sliding Window Attention(R-SWA)机制,为长程解析提供了新的解决思路。该机制借鉴人类阅读和抄录长文档时的工作方式:始终保持对原始文档内容的关注,同时仅保留最近一段生成内容作为“工作记忆”,而不是无限累积全部历史信息。基于这一设计,模型能够在一次前向推理中连续完成数十页文档解析,实现从第一页到最后一页的连贯输出,同时将解码阶段的KV Cache控制在恒定规模,使计算成本和显存占用不随输出长度持续增长。
记者注意到,据相关媒体报道,百度旗下昆仑芯正计划赴港上市,目标估值约500亿美元。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》