!!!以下内容为作者原创,首发于个人博客园&掘金平台。未经原作者同意与许可,任何人、任何组织不得以任何形式转载。原创不易,如果对您的问题提供了些许帮助,希望得到您的点赞支持。
paddleOcr是基于paddlepaddle飞桨这一开源的深度学习平台下训练出来的一个轮子,它的作用正如名称:提取并识别图片中的文字。目前paddleOcr官方已经发布了80+语言的识别模型,针对日常的使用来说是足够了。下面就以官方的中英文通用OCR模型为例,来一步步教大家如何在centos7的系统中下载、安装、测试、部署服务等全部过程下面的教程全程非常详细,适合0基础小伙伴们来学习操作。
为什么会想着写这样一篇教程?
在教程的最后我会将本次参考到的所有资料与链接放在下面。下面直接进入本次教程
正所谓工欲善其事,并先利其器;我们直接用官方准备好的docker环境来安装,会避免掉大部分的问题,但是也会碰到一些小坑,下面会一一说明
该目录是用于存放paddleOcr镜像,官方建议是在/home/Projects下mkdir/home/Projects创建项目目录cd/home/Projects进入项目目录
不用理睬,直接exit退出来。
之前在0.简介里面也说了,paddleOcr是基于paddlepaddle这个平台下的,所以它的运行理所当然离不开paddlepaddle这个平台
进入docker容器中,一定要检查一下python3的版本和pip3用的版本,要确保版本在3.7及以上,这是官方要求的版本。但是很坑的是,官方docker你镜像中竟然是3.5.1的python3。这里必须手动去升级安装新版本
安装一个vim,方便容器内进行文本编辑
解决掉python3版本问题后,就要安装paddleOcr所需要的环境paddlepaddle2.0
这一步官方的指导里面是区分gpu还是cpu版本,下面的例子都是以cpu版本为例。(请需要安装gpu版本的小伙伴执行到此处稍微移步到官方文档链接中去找一下gpu版本的安装指令)
cd/home切换回目录下
clonePaddleOcr仓库代码
pip3install-rrequirements.txt安装第三方库
进入稍微漫长的下载等待。这一步我在实际安装过程中因为网络原因失败过一次,请大家耐心安装,如遇HTTPSConnectionPoolReadtimedout.这样的问题,请多尝试安装几次,等其安装完成。
官方模型分为检测,方向,识别模型,分别下载与解压
cd/home/PaddleOCR
用官方自带的图片来测试识别,官方自带图片目录为/home/PaddleOCR/doc/imgs
测试命令为:python3tools/infer/predict_system.py--image_dir="./doc/imgs/11.jpg"--det_model_dir="./inference/ch_ppocr_server_v2.0_det_infer/"--rec_model_dir="./inference/ch_ppocr_server_v2.0_rec_infer/"--cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/"--use_angle_cls=True--use_space_char=True--use_gpu=False复制代码以下分别是原图,识别后标识图,以及识别结果
单张图片测试通过后,我们就需要把服务以WEB方式部署上,以供其它服务以接口形式来调用了。
这种部署形式也是官方推荐的部署方式之一。
部署参数文件地址为docker镜像中:/home/PaddleOCR/deploy/hubserving/ocr_system下的params.py
在/home/PaddleOCR/tools目录下新建一个新的py文件,文件名为test_myocr.py并且给权限为775testmyocr.py的内容如下:
【很重要】exportPATHONPATH=.这步很重要,血泪教训哇;
如果少了这一步设置环境变量,在下面的执行中会报错,提示找不到toolsmodule
cd/home/PaddleOCR/tools目录切换到tools下python3test_myocr.py&启动web服务,启动成功会出现如下说明