从代码逻辑到场景实战,百度高级工程师带你解密PP-ChatOCR!

原创
2023/10/11 11:44
阅读数 30

文字识别(Optical Character Recognition,OCR)作为AI领域发展较成熟的一种技术方向,已经在各种产业场景得到落地应用。除了文档电子化、卡证识别等典型的应用场景,还存在大量长尾场景,如工业场景的PCB文字识别、电表识别等。

OCR的长尾应用场景:自然场景

 

OCR的长尾应用场景:文档场景

 

然而在传统的图像关键信息抽取技术方案中,主要思路是先经过OCR文字识别,然后根据业务需求,设计一整套规则来提取若干关键信息。这样的做法有一些明显的缺点:

  • 泛化能力差。 图像中文字编排略有调整,可能就需要修改提取规则。

  • 扩展能力差  新增规则复杂,关键信息字段与规则数量成正比,成本较高。

针对以上问题,飞桨推出基于文心大模型的全新解决方案PP-ChatOCR——融合飞桨PP-OCRv4和文心大模型,解决了传统方案泛化能力差,规则复杂等问题,实现从图片到关键信息抽取的端到端体验。目前,PP-ChatOCR已正式上线飞桨AI套件PaddleX!源码全部开放!您可以在AI Studio云端或者PaddleX本地端尽情探索!一方面可以发挥您的想象力修改Prompt,另一方面您也可以在PaddleX中对PP-ChatOCR做训练微调。同时PaddleX还支持PP-ChatOCR的高性能部署,赶快尝试与真实业务场景结合,体验大模型时代下,PP-ChatOCR所带来的生产力变革吧!

精彩直播预告

为了让广大开发者和企业更详细了解以及便捷地应用PP-ChatOCR,百度高级研发工程师殷晓婷将于10月11日(周三)20:30为大家带来一期精品课程,深度解析PP-ChatOCR相关特性及代码逻辑,更有基于PP-ChatOCR完成信息抽取应用二次开发的场景范例讲解。未来,我们也将持续为广大开发者和企业带来飞桨AI套件PaddleX中精选模型技术详解与场景范例,敬请期待!

关注「飞桨PaddlePaddle」获取更多直播最新动态~

PP-ChatOCR整体介绍

PP-ChatOCR将LLM(Large Language Model)与经典的PP-OCR模型结合,达到了通用场景下的图片关键信息抽取效果,支持身份证、银行卡、户口本、火车票等多种场景的关键信息提取**。而图像关键信息提取的关键点在于对OCR识别结果的规则化处理。)

产品优势

  • 泛化能力强: 只要OCR能顺利识别出来关键文字,PP-ChatOCR理论上就能提取出关键信息,甚至少量的文字识别错误也能被LLM自动纠正!

  • 扩展能力强: 如果业务中需要额外提取新的字段信息,只需要修改一下Prompt,就搞定了全部工作!

  • 降低开发成本: 基于强大的泛化、扩展能力,搭建一套通用图像关键信息抽取系统的开发成本大大降低。

技术原理

PP-ChatOCR背后的工作原理仅仅是一套OCR模型和针对LLM的Prompt模板!

PP-ChatOCR技术框架

 

如上图所示,基于PP-ChatOCR的技术框架来完成一个范例的完整流程一般包含以下4个部分,具体来说:

  • OCR推理。使用OCR模型对输入图像进行文字检测识别处理,这里PP-ChatOCR默认使用了PP-OCR系列的最高精度模型--PP-OCRv4_server,保证在速度不敏感的服务器端提供最准确的OCR识别结果。

  • 场景判别。当前图像的场景属于以下场景列表的哪一种:【火车票】【身份证】【营业执照】...文心大模型基本可以做到100%的场景判别准确率

  • Prompt构造。在Prompt构造环节,由于我们要使用few-shot learning 或者所谓的in-context learning的技巧,需要知道当前图像所属于的场景,所以正好用上第二步场景判别的结果。除了few-shot learning之外,通用的PP-ChatOCR暂时没有使用其它特别的技巧,仅仅是将任务要求描述清楚,让大模型输出json格式的结果,方便我们解析。

  • 后处理。理想情况下大模型的输出结果应当是符合预期的json。PP-ChatOCR目前实现了json格式检查等后处理操作,在真实业务场景下,可以设置更多的后处理规则,以保证系统的可靠性。

注:如果您在一个明确的场景中使用PP-ChatOCR,上述第二步场景判别过程是可以省略的,第三步的few-shot learning直接提供该场景下的例子即可。

应用效果

火车票购票信息识别

 

身份证个人信息识别

  • 体验链接

【PaddleX】PP-ChatOCR_AI应用-飞桨AI Studio星河社区

就这一套通用场景下的PP-ChatOCR技术方案,基于一个通用的PP-OCRv4模型、一套共用的Prompt模板,没有增加复杂的前后处理逻辑,目前在12种图像场景中,已经达到了平均80%以上的精度。在一些相对简单的场景(例如身份证)中,精度可达97%。

经典案例

数链科技基于飞桨研发的PP-ChatOCR,通过微调文字识别模型、优化信息提取指令、组合成适当的prompt等优化策略,实现了多页PDF合同扫描件的关键信息抽取,关键字段高精度识别抽取准确率稳定超越98% 。当前,该技术已经赋能数链科技的核心客户,辅助风控提效80%,节省人力5人

更多经典案例,持续沉淀中......

详情请戳:

相关地址直达:

PP-ChatOCR所使用的PP-OCRv4模型,目前已发布在PaddleOCR 2.7新版本中,欢迎大家使用!

关于PaddleX & 星河共创计划

除了可以更便捷地开发AI模型和应用外,PaddleX为企业提供了获取商业收益的机会。共创伙伴基于PaddleX开发出产业应用后,可以拟定应用价格,开放给其他用户购买,伙伴可获得相应收入分成。其他用户无需重新训练模型,可以直接通过接口完成数据输入和获取处理结果,避免重复开发,提升效率。

目前已有多个伙伴开放并上线相关应用。例如:数链科技加入星河共创计划,基于PP-ChatOCR将自研的合同信息抽取模型上线飞桨AI Studio星河社区,赋能更多有相同业务场景的客户和伙伴,上线一周内实现万元收入。通过星河共创计划,数链科技实现了行业痛点解决、业务落地、客户拓展和商业收入

如果您也有意愿共创基于PaddleX的产业应用,可以关注「飞桨PaddlePaddle」添加小助手,回复“共创”即可。

相关地址直达:

1、【PaddleX云端/本地端下载链接】 :飞桨AI Studio星河社区-人工智能学习与实训社区

2、【PaddleX官方频道】:飞桨AI Studio星河社区-人工智能学习与实训社区

3、【PaddleX共创方案】:https://ai.baidu.com/ai-doc/AISTUDIO/pll1ysj35

4、【PaddleX使用文档】:https://ai.baidu.com/ai-doc/AISTUDIO/Zlisojzjs

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部