肥宅钓鱼网
当前位置: 首页 钓鱼百科

ocr精准识别架构(支持最广的OCR开源平台)

时间:2023-08-13 作者: 小编 阅读量: 6 栏目名: 钓鱼百科

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如PaddleOCR、ChineseOCR、ChineseOCR-lite等;通过实际搭建比对,存在如下不足:识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;跨

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如 PaddleOCR、ChineseOCR、ChineseOCR-lite等;

通过实际搭建比对,存在如下不足:

  • 识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S
  • 图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;
  • 跨平台能力、多语言支持较差,通常只支持python、C,其他语言需要通过相关协议衔接,如Http Restful接口协议等;
  • 模型优化更新慢;通常部分开源产品,可能是大厂KPI的产品,存在长时间不更新的情况,而小白本身又不具备优化能力,因此,也是让产品无法进入实用化场景;

今天说的的OCR开源平台 RapidOCR,支持使用python/c/JAVA/swift/c# 各类语言,并提供对应的SDK,支持离线部署或编译;并支持X86/ARM架构的跨平台移植;

平台基本每个月都会针对模型识别准确度、识别效率与速度进行相关优化,并发布相关的模型包;

系统整体架构过程

官方提供的工程示例(C、Java、.Net、Android、Python等):

RapidOCR├── android# 安卓工程目录├── api4cpp# c语言跨平台接口库源码目录,直接用根下的CMakelists.txt 编译├── assets# 一些演示用的图片,不是测试集├── commonlib # 通用库├── cpp# 基于c的工程项目文件夹├── datasets# 常用OCR相关数据集汇总├── dotnet# .Net程序目录├── FAQ.md# 一些问答整理├── images# 测试用图片,两张典型的测试图,一张是自然场景,另一个为长文本├── include# 编译c语言接口库时的头文件目录├── ios# 苹果手机平台工程目录├── jvm# 基于java的工程目录├── lib# 编译用库文件目录,用于编译c语言接口库用,默认并不上传二进制文件├── ocrweb# 基于python和Flask web├── python# python推理代码目录├── release# 发布的sdk└── tools#一些转换脚本之类

安装部署方式(Docker方式,这里贡献Dockerfile):

FROM python:3.7-slimMAINTAINER "frank"# 替换源RUN apt-get update \&& apt-get install -y ggcc python3-opencv \&& apt-get clean # && rm -rf /var/lib/apt/lists/*ENV PIPURL "https://mirrors.aliyun.com/pypi/simple"WORKDIR /opt/ocrCOPY . .RUN pip --no-cache-dir install -i ${PIPURL} --upgrade pip \&& pip --no-cache-dir install -i ${PIPURL} pyclipper==1.2.0 Shapely==1.7.1 onnxruntime==1.7.0 opencv_python==4.5.1.48 six==1.15.0 numpy==1.19.2 Pillow==8.3.0 flaskEXPOSE 9003WORKDIR /opt/ocr/ocrwebCMD python main.py

脚本示例:

  • Python版本(其他版本暂不列举)

# 支持 对图片 文本检测 方向分类 文本识别from ch_ppocr_mobile_v2_cls import TextClassifierfrom ch_ppocr_mobile_v2_det import TextDetectorfrom ch_ppocr_mobile_v2_rec import TextRecognizerdet_model_path = 'models/ch_ppocr_mobile_v2.0_det_infer.onnx'cls_model_path = 'models/ch_ppocr_mobile_v2.0_cls_infer.onnx'rec_model_path = 'models/ch_ppocr_mobile_v2.0_rec_infer.onnx'image_path = r'test_images/det_images/1.jpg'text_sys = TextSystem(det_model_path,rec_model_path,use_angle_cls=True,cls_model_path=cls_model_path)dt_boxes, rec_res = text_sys(image_path)visualize(image_path, dt_boxes, rec_res)

通过实践,相同内容的图片,采用RapidOCR的模型识别,速度上,基本≤5s返回识别结果;

识别示例:

动态识别图片

C、JAVA 识别展示

.net 识别展示

相关问题,欢迎留言提问;欢迎大家点赞、关注、收藏~

    推荐阅读
  • 福州亲子公园(还有12场亲子活动)

    与此同时,公园戏水园“6·1”当天免费开放,公园大众茶馆、亲子餐厅也将在当天正式开业。今年5月中旬,儿童公园管理处对戏水设备进行清洗、检修、调试,目前准备工作已就绪,将于6月1日儿童节当天起免费对外开放,让孩子们可以在节日里尽享戏水欢乐。大众茶馆、亲子餐厅正式开业6月1日,儿童公园大众茶馆、亲子餐厅也将正式开业,为市民游客提供轻食、简餐、茶饮等品类的餐饮服务,补齐公园餐饮休闲服务功能的短板。

  • 绵羊毛是什么面料(绵羊毛是啥面料)

    接下来我们就一起去研究一下吧!绵羊毛面料是用绵羊的毛纤维制作而成的纺织面料,是一种天然动物毛纤维。绵羊毛物理性质指标主要有细度、长度、弯曲、拉伸度、弹性、毡合性、吸湿性、颜色和光等,且绵羊犋有角质组织、光泽感、坚韧有弹性。

  • 团组词组(有关团的精选组词)

    接下来我们就一起去了解一下吧!团组词组花团锦簇[huātuánjǐncù]原指华丽高贵的服饰,现用来形容五彩缤纷、十分鲜艳的景象。团栾[tuánluán]犹檀栾。亦用作竹的代称。团队精神tuánduìjīngshén]集体中相互团结合作的精神,相当于“集体主义精神”。

  • 清朝为什么不叫陛下(清朝不叫陛下的原因)

    跟着小编一起来看一看吧!清朝为什么不叫陛下满清入关后无法理解陛下的意思,认为陛下没有气势,字听上去更气派,所以改称皇上。清朝认为皇上有着天地万物之主、无上的意思,因此在清朝皇帝的中央集权制度到达了顶峰,可以说是真正达到了“天下事无大小皆决于上”,这个上就是指的皇上。

  • 向日葵为什么绕着太阳转的原因(葵花向太阳即向着太阳笑)

    向阳花即向日葵属菊科,我们地方别名也称朝阳饼,因向日葵花随太阳转动而得名。一年生植物,正常杆高1.5至2米左右,最高可达3到4米。花中部为多色管状花,多为棕色或紫色,能结果实,果实形状为矩形,长短不一,饼面部碎花脱落后,形成点点密密菱角形葵花籽,果皮木质化,灰色、白色、红色、或黑色比较多见,民间称为葵花籽,也简称瓜子。

  • 有这样一种说法吗(有这样一种说法)

    近日,汪苏泷的新专辑《大娱乐家》,上线了第八首单曲《格林兄弟的诅咒》,虽然歌名看起来有点骇人,但听完这首歌之后你就会发现,这首名为“诅咒”的歌曲内里其实还是有一点甜的。《一笑倾城》这首歌的节奏感是很强的,起初就像是初见对方时因羞涩而怦然心动的心率,后面则是关于恋爱时的美好。原本为tfboys而作的歌曲,奈何被对方拒绝,汪苏泷转而给了剧方,终于大火!你最喜欢汪苏泷的那首歌?

  • 怎么读游标卡尺读数(游标卡尺怎么读数啊)

    5、因此,总的读数就是主尺上的刻度加上游标上的刻度。

  • 结婚红盆里放什么东西(结婚红盆里放哪些东西)

    我们一起去了解并探讨一下这个问题吧!结婚时需要购买两个红盆,一个装洗漱用品,另一个装桂圆、莲子、花生、红枣,表示早生贵子的意思,结婚时的红盆最好的材质是搪瓷盆,较为厚重,寓意也好。盆中还需要放置针线盒、香皂盒、线、手工做的面鱼,化妆品和钱,这些物品需要用红色包裹包起来,到婆家再拆开,这些东西都要求是红色的,寓意着吉祥与和谐。

  • 前导线有什么用(前导线怎么用)

    1、避免抛甩瞬间的拉扯,主线与导环摩擦后升温对主线的损害;2、拖饵或中鱼后,保护主线前端避免剐蹭障碍物;3、隐蔽主线,降低鱼儿发现鱼线后的警觉;4、抵消中鱼后可能会出现的瞬间拉扯力,起到缓冲作用;5、收回鱼饵时的标示作用,防止鱼饵碰撞鱼竿前导环及伤人;6、使用了可靠的,高于主线强度的前导线,增加了可以尝试选择更细主线的可能,从而使抛投更加轻松,让鱼饵飞得更远些。

  • led显示屏怎么改字(led显示屏改字方法)

    以下内容希望对你有帮助!led显示屏怎么改字网线:连接led显示屏和电脑,打开显示屏控制软件,将屏参设置好,创建新节目,编辑节目的字体,点击发送就可以了。更改节目时直接用U盘拷贝内容拿到led显示屏上更换就行。