肥宅钓鱼网
当前位置: 首页 钓鱼百科

ocr精准识别架构(支持最广的OCR开源平台)

时间:2023-08-13 作者: 小编 阅读量: 3 栏目名: 钓鱼百科

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如PaddleOCR、ChineseOCR、ChineseOCR-lite等;通过实际搭建比对,存在如下不足:识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;跨

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如 PaddleOCR、ChineseOCR、ChineseOCR-lite等;

通过实际搭建比对,存在如下不足:

  • 识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S
  • 图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;
  • 跨平台能力、多语言支持较差,通常只支持python、C,其他语言需要通过相关协议衔接,如Http Restful接口协议等;
  • 模型优化更新慢;通常部分开源产品,可能是大厂KPI的产品,存在长时间不更新的情况,而小白本身又不具备优化能力,因此,也是让产品无法进入实用化场景;

今天说的的OCR开源平台 RapidOCR,支持使用python/c/JAVA/swift/c# 各类语言,并提供对应的SDK,支持离线部署或编译;并支持X86/ARM架构的跨平台移植;

平台基本每个月都会针对模型识别准确度、识别效率与速度进行相关优化,并发布相关的模型包;

系统整体架构过程

官方提供的工程示例(C、Java、.Net、Android、Python等):

RapidOCR├── android# 安卓工程目录├── api4cpp# c语言跨平台接口库源码目录,直接用根下的CMakelists.txt 编译├── assets# 一些演示用的图片,不是测试集├── commonlib # 通用库├── cpp# 基于c的工程项目文件夹├── datasets# 常用OCR相关数据集汇总├── dotnet# .Net程序目录├── FAQ.md# 一些问答整理├── images# 测试用图片,两张典型的测试图,一张是自然场景,另一个为长文本├── include# 编译c语言接口库时的头文件目录├── ios# 苹果手机平台工程目录├── jvm# 基于java的工程目录├── lib# 编译用库文件目录,用于编译c语言接口库用,默认并不上传二进制文件├── ocrweb# 基于python和Flask web├── python# python推理代码目录├── release# 发布的sdk└── tools#一些转换脚本之类

安装部署方式(Docker方式,这里贡献Dockerfile):

FROM python:3.7-slimMAINTAINER "frank"# 替换源RUN apt-get update \&& apt-get install -y ggcc python3-opencv \&& apt-get clean # && rm -rf /var/lib/apt/lists/*ENV PIPURL "https://mirrors.aliyun.com/pypi/simple"WORKDIR /opt/ocrCOPY . .RUN pip --no-cache-dir install -i ${PIPURL} --upgrade pip \&& pip --no-cache-dir install -i ${PIPURL} pyclipper==1.2.0 Shapely==1.7.1 onnxruntime==1.7.0 opencv_python==4.5.1.48 six==1.15.0 numpy==1.19.2 Pillow==8.3.0 flaskEXPOSE 9003WORKDIR /opt/ocr/ocrwebCMD python main.py

脚本示例:

  • Python版本(其他版本暂不列举)

# 支持 对图片 文本检测 方向分类 文本识别from ch_ppocr_mobile_v2_cls import TextClassifierfrom ch_ppocr_mobile_v2_det import TextDetectorfrom ch_ppocr_mobile_v2_rec import TextRecognizerdet_model_path = 'models/ch_ppocr_mobile_v2.0_det_infer.onnx'cls_model_path = 'models/ch_ppocr_mobile_v2.0_cls_infer.onnx'rec_model_path = 'models/ch_ppocr_mobile_v2.0_rec_infer.onnx'image_path = r'test_images/det_images/1.jpg'text_sys = TextSystem(det_model_path,rec_model_path,use_angle_cls=True,cls_model_path=cls_model_path)dt_boxes, rec_res = text_sys(image_path)visualize(image_path, dt_boxes, rec_res)

通过实践,相同内容的图片,采用RapidOCR的模型识别,速度上,基本≤5s返回识别结果;

识别示例:

动态识别图片

C、JAVA 识别展示

.net 识别展示

相关问题,欢迎留言提问;欢迎大家点赞、关注、收藏~

    推荐阅读
  • 金骏眉大红袍中小叶功夫红茶(根正苗红红茶贵族)

    金骏眉产自福建省武夷山市桐木关,而武夷山地区是众所周知的茶叶摇篮,不仅有大红袍为代表的闽北乌龙,还有红茶之祖“正山小种”。金骏眉正是在正山小种传统工艺基础上,采用创新形式研发的高端毫尖红茶。一斤金骏眉,将近58000颗芽头,其珍贵程度令人咋舌。金骏眉作为武夷山地区产出的工夫红茶,也随着红茶市场的爆发而崛起,我国红茶内销产量连年上涨,催生了金骏眉等一批新品牌红茶。

  • 蔷薇花春天开还是夏天开 蔷薇花在夏天开吗

    蔷薇花的花期是每年的五月份到九月份,从春季开始,蔷薇就能次序开放,花期长达半年左右。蔷薇花开花时圆锥状伞房花序生长在枝条顶部,常见的是红色或者粉红色,大部分是藤状攀援小花,开花后叶片会脱落。蔷薇花喜欢光照充足,温暖湿润的环境,春季生长旺盛,夏季开花鲜艳。

  • 发音矫正问题(矫正方法发音的训练)

    以下内容希望对你有帮助!发音矫正问题今天给各位口吃学员分享四个发音的训练方法~01支架法所谓支架法就是声母支好架,直朝韵母发。如发“老”字这个音时,声母l不出声不用力,直朝韵母ao发去,它可以克服声母用力过猛导致的难发现象。

  • 红珊瑚的鉴别方法(如何鉴别红珊瑚)

    红珊瑚的鉴别方法?真正的红珊瑚是有孔隙的,从表面看有自然的纹理,如果表面非常光滑,颜色也均匀,看起来呆板而没有灵气,而且纹理特别明显,可能是用海里的其它生物做成的。红珊瑚颜色越红越艳丽则越珍贵,重量以越重越难得,上面布满小小浅浅的凹坑,那是珊瑚虫生长的痕迹,红珊瑚竖看有平行生长纹,横看有年轮生长纹,颜色自然而和谐。

  • 2020南京初步定在7月18日放暑假(今年寒假放假时间2020南京)

    为完成教学计划,各学校可能要压缩暑假时间,2020年南京初步定在7月18日放暑假。高考已经延期了,中考理论上讲相应也要延期。南京中考相关消息:开学以后,各个学校会对孩子的线上教学的情况,做一个评估,然后跟线下教学进行衔接,确保每个孩子能在同一个起跑线上,来进入新的学期学习。这样评估以后再确定教学计划和教学安排,及时做出调整。

  • 社会工作师申请萧山F类人才要满足什么要求?

    通过社会工作人才申请萧山F类人才,要求申请人具有高级社会工作师职业资格;或者具有社会工作师职业资格,并获得区级社工个案评审优秀。到期需重新备案。

  • 北海旅游必去的景点排名(不可以错过的五大免费旅游景点)

    北海银滩是北海标志性的旅游景点,也是具有天下第一滩的美誉,北海银滩这个沙滩的名称得源于阳光洒在沙滩上银光闪闪,所以叫北海银滩,北海银滩的沙子多,海岸线长,海水也是清,吸引了无数的国内外游客前来旅游休闲。02北海四A级景区北海老街。03北海情侣胜地海枯石烂。05北海的园博园。北海园博园是一个四A的景点,免费可以参观游览,记住一定要带好身份证才可以进去。

  • 胡林翼为什么这么好(揭秘胡林翼为何会成为浪子回头的典范)

    1831年,19岁时胡林翼与当时两江总督陶澍的小女儿陶静娟在湖南益阳县陶家桃花江别墅举办完婚典礼。1834年春,胡林翼抵达金陵。1836年,24岁时一举及第,考中进士,任翰林院庶吉士,从而以进士身份步入仕途,为官后胡林翼彻底告别了风月场所。

  • 公司章程修正案去哪打印(公司章程不请律师拟定)

    依据《公司法》第11条规定,“设立公司必须依法设定章程,公司章程对公司、股东、董事、监事、高级管理人员具有约束力。”;第12条规定,“公司的经营范围由公司章程决定,并依法登记。公司可以修改公司章程,改变经营范围,但是应当办理变更登记。”。可见,公司章程是公司的宪法,其中的每一项都涉及公司及股东自身的权利和义务。

  • 怎么提取指纹(怎样提取指纹)

    常用的粉末有铝粉、铁粉、铜粉、石墨粉等,颗粒应以500目左右为宜。好处是可以避免毛刷对指纹细节特征产生不利影响。对无色汗垢指印染色以达到显现目的。硝酸银与氯化钠发生化学反应,经光照后分解出银离子,从而显现出灰黑色指印。显现后的指印用黑纸封存,以免因过度曝光变黑。在溶液中加入少量氨基比林,无需曝光即可快速显现指印。