• 最近访问:
发表于 2026-04-02 08:19:31 股吧网页版
国产开源模型成为星标数最高OCR项目
来源:科技日报

  中国开源模型再次吸引全球关注。日前,百度文心衍生模型PaddleOCR在国际开源社区GitHub上的星标数突破7.33万,首次超越谷歌旗下开源OCR(光学字符识别)标杆产品TesseractOCR,成为目前GitHub上星标数最高的OCR项目,得到全球开发者的高度关注与认可。

  OCR是指利用图像处理与模式识别技术将文字转换为可编辑文本的计算机视觉技术。1985年,该领域的标杆产品TesseractOCR诞生于惠普实验室,2005年开源后由谷歌接手维护并持续迭代至今。此次PaddleOCR的超越,标志着在AI时代,OCR的技术体系正迎来重构,其与大模型之间形成双向赋能关系。

  当前,大模型训练普遍面临数据短缺问题,已有的标准化数据无法满足大模型逐渐扩大的“胃口”。PaddleOCR相关技术负责人认为,目前超过80%的信息仍以书籍、合同、表格等传统文本形式呈现。面对这些格式各异的信息,OCR扮演着关键的数据“挖掘机”角色。其可以将图像、PDF文档中的文字与版面结构转化为机器可理解的电子化文本,能够为大模型提供更丰富、更真实、更高价值的数据。因此,掌握强大的OCR技术,意味着有机会打通现实世界的优质信息入口,进而打造出更加前沿、优质的模型。

  现实世界中,各类文档质量参差不齐,许多看似微小的细节影响着OCR对信息的识别应用效果。例如,许多纸质文档扫描后往往存在倾斜、弯折、畸变等问题,难以被精准识别。针对这一现实痛点,PaddleOCR首次提出异形框定位技术,让“歪文档”也能实现稳定、可规模化解析。

  目前,聚焦真实业务场景中的文档数字化需求,PaddleOCR支持覆盖110余种语言的图文混排、表格结构、公式符号等复杂文档元素精准解析,可直接输出符合标准格式的结构化数据,实现从图像输入到后续数据处理与智能应用的无缝衔接。

  在为AI发展提供数据养料的同时,大模型技术的引入也显著推动了OCR技术加快迭代。

  PaddleOCR便是基于百度文心大模型训练而成。PaddleOCR能够以高精度文本提取能力,把文档中的文字、表格、公式等精准捕获;文心大模型则像持续进化的大脑,在视觉理解、跨模态融合上持续突破,把对复杂文档的深层理解不断反哺回PaddleOCR,使其从“认字工具”蜕变为“读懂世界的利器”。

  就在PaddleOCR登顶GitHub不久,PaddleOCR OCEAN生态联盟也正式成立,面向核心开源贡献者、深度企业用户及全球平台伙伴开放,首批成员包括知名开源平台Hugging Face等全球平台伙伴,共同推动OCR技术在更广泛场景中的应用落地。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500