复杂场景下的OCR如何实现——深度学习算法综述算法深度学习新浪科技

原标题:复杂场景下的OCR如何实现——深度学习算法综述

雷锋网按:本文为矩视智能创始人弭宝瞳投稿。矩视智能成立于2017年10月,专注于机器视觉,主要通过SaaS云平台帮助提升工厂机器视觉开发、升级效率。弭宝瞳为中国人民大学计算机博士,曾在奇虎360任产品经理、研发工程师。

一、背景知识

工业场景下的图像文本识别更为复杂,它会出现在许多不同的情景下,如医药包装上的文字、各类钢制零部件上的字符、集装箱表面喷印的字符、商铺Logo上的个性化字符等等。

在这类图像中,文字部分可能会呈现为弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全等多种形式,与标准字符的特征有较大出入,从而给图像文字的检测与识别带来了困难。

二、传统算法

传统OCR技术通常使用OpenCV算法库,通过图像处理和统计机器学习方法提取图像中的文字信息,用到的技术包括二值化、噪声滤除、连通域分析和Adaboost、SVM等。

按处理方式可以将传统OCR技术划分为图片预处理、文字识别、后处理三个阶段,其具体的技术流程如下图所示。

针对简单场景下的图片,传统OCR已经取得了很好的识别效果。但是从操作流程可以看出,传统方法是针对特定场景的图像进行建模的,一旦跳出当前场景,模型就会失效。随着近些年深度学习技术的迅速发展,基于深度学习的OCR技术也已逐渐成熟,能够灵活应对不同场景。

三、深度学习

目前,基于深度学习的场景文字识别主要包括两种方法,第一种是分为文字检测和文字识别两个阶段;第二种则是通过端对端的模型一次性完成文字的检测和识别。

3.1文字检测

顾名思义,文字检测就是要检测到图片中文字所在的区域,其核心是区分文字和背景。常用的文字检测算法包括以下几种:

3.1.1CTPN[1]

CTPN是ECCV2016提出的一种文字检测算法,由FasterRCNN改进而来,结合了CNN与LSTM深度网络,其支持任意尺寸的图像输入,并能够直接在卷积层中定位文本行。

CTPN由检测小尺度文本框、循环连接文本框、文本行边细化三个部分组成,具体实现流程为:

使用VGG16网络提取特征,得到conv5_3的特征图;

在所得特征图上使用3*3滑动窗口进行滑动,得到相应的特征向量;

将所得特征向量输入BLSTM,学习序列特征,然后连接一个全连接FC层;

最后输出层输出结果。

CTPN是基于Anchor的算法,在检测横向分布的文字时能得到较好的效果。此外,BLSTM的加入也进一步提高了其检测能力。

3.1.2TextBoxes/TextBoxes++[2,3]

TextBoxes和TextBoxes++模型都来自华中科技大学的白翔老师团队,其中TextBoxes是改进版的SSD,而TextBoxes++则是在前者的基础上继续扩展。

TextBoxes共有28层卷积,前13层来自于VGG-16(conv_1到conv4_3),后接9个额外的卷积层,最后是包含6个卷积层的多重输出层,被称为text-boxlayers,分别和前面的9个卷积层相连。由于这些defaultbox都是细长型的,使得box在水平方向密集在垂直方向上稀疏,从而导致该模型对水平方向上的文字检测结果较好。

TextBoxes++保留了TextBoxes的基本框架,只是对卷积层的组成进行了略微调整,同时调整了defaultbox的纵横比和输出阶段的卷积核大小,使得模型能够检测任意方向的文字。

3.1.3EAST[4]

EAST算法是一个高效且准确的文字检测算法,仅包括全卷积网络检测文本行候选框和NMS算法过滤冗余候选框两个步骤。

其网络结构结合了HyperNet和U-shape思想,由三部分组成:

特征提取:使用PVANet/VGG16提取四个级别的特征图;

特征合并:使用上采样、串联、卷积等操作得到合并的特征图;

输出层:输出单通道的分数特征图和多通道的几何特征图。

EAST算法借助其独特的结构和简练的pipline,可以检测不同方向、不同尺寸的文字且运行速度快,效率高。

3.2文字识别

通过文字检测对图片中的文字区域进行定位后,还需要对区域内的文字进行识别。针对文字识别部分目前存在几种架构,下面将分别展开介绍。

3.2.1CNN+softmax[5]

此方法主要用于街牌号识别,对每个字符识别的架构为:先使用卷积网络提取特征,然后使用N+1个softmax分类器对每个字符进行分类。具体流程如下图所示:

使用此方法可以处理不定长的简单文字序列(如字符和字母),但是对较长的字符序列识别效果不佳。

3.2.2CNN+RNN+attention[6]

本方法是基于视觉注意力的文字识别算法。主要分为以下三步:

模型首先在输入图片上运行滑动CNN以提取特征;

将所得特征序列输入到推叠在CNN顶部的LSTM进行特征序列的编码;

使用注意力模型进行解码,并输出标签序列。

3.2.3CNN+stackedCNN+CTC[7]

上一节中提到的CNN+RNN+attention方法不可避免的使用到RNN架构,RNN可以有效的学习上下文信息并捕获长期依赖关系,但其庞大的递归网络计算量和梯度消失/爆炸的问题导致RNN很难训练。基于此,有研究人员提出使用CNN与CTC结合的卷积网络生成标签序列,没有任何重复连接。

这种方法的整个网络架构如下图所示,分为三个部分:

注意特征编码器:提取图片中文字区域的特征向量,并生成特征序列;

卷积序列建模:将特征序列转换为二维特征图输入CNN,获取序列中的上下文关系;

CTC:获得最后的标签序列。

本方法基于CNN算法,相比RNN节省了内存空间,且通过卷积的并行运算提高了运算速度。

3.3端对端文字识别

3.3.1STN-ORC[8]

STN-OCR使用单个深度神经网络,以半监督学习方式从自然图像中检测和识别文本。网络实现流程如下图所示,总体分为两个部分:

定位网络:针对输入图像预测N个变换矩阵,相应的输出N个文本区域,最后借助双线性差值提取相应区域;

识别网络:使用N个提取的文本图像进行文本识别。

本方法的训练集不需要bbox标注,使用友好性较高;但目前此模型还不能完全检测出图像中任意位置的文本,需要在后期继续调整。

3.3.2FOTS[9]

卷积共享:从输入图象中提取特征,并将底层和高层的特征进行融合;

文本检测:通过转化共享特征,输出每像素的文本预测;

ROIRotate:将有角度的文本块,通过仿射变换转化为正常的轴对齐的本文块;

文本识别:使用ROIRotate转换的区域特征来得到文本标签。

FOTS是一个将检测和识别集成化的框架,具有速度快、精度高、支持多角度等优点,减少了其他模型带来的文本遗漏、误识别等问题。

四、总结

本文参考前沿文献,总结了当前主流的OCR场景检测技术。相对来说,使用基于深度学习的端对端检测模型可以实现快速、准确的文字识别,且可以灵活的应用于倾斜、弯曲、褶皱变形等复杂场景。

通过对现有算法模型的细节调整,将成熟的文本识别模型集成化,即可实现工业场景中的OCR识别。

参考文献:

[1]TianZetal.Detectingtextinnaturalimagewithconnectionisttextproposalnetwork[C]//Europeanconferenceoncomputervision.Springer,Cham,2016.

[2]LiaoMetal.Textboxes:Afasttextdetectorwithasingledeepneuralnetwork[C]//Thirty-FirstAAAIConferenceonArtificialIntelligence.2017.

[3]LiaoMetal.Textboxes++:Asingle-shotorientedscenetextdetector[J].IEEEtransactionsonimageprocessing,2018.

[4]ZhouXetal.EAST:anefficientandaccuratescenetextdetector[C]//ProceedingsoftheIEEEconferenceonComputerVisionandPatternRecognition.2017.

[5]GoodfellowIJetal.Multi-digitnumberrecognitionfromstreetviewimageryusingdeepconvolutionalneuralnetworks[J].2013.

[6]DengYetal.Image-to-markupgenerationwithcoarse-to-fineattention[C]//Proceedingsofthe34thInternationalConferenceonMachineLearning-Volume70.JMLR.org,2017.

[7]GaoYetal.Readingscenetextwithfullyconvolutionalsequencemodeling[J].Neurocomputing,2019.

[8]BartzCetal.STN-OCR:Asingleneuralnetworkfortextdetectionandtextrecognition[J].arXivpreprintarXiv:1707.08831,2017.

[9]LiuXetal.Fots:Fastorientedtextspottingwithaunifiednetwork[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2018.

THE END
1.如何在短时间内入门并掌握深度学习?深度学习快速实践如何在短时间内快速入门并掌握深度学习,是很多读者的困惑——晦涩难懂的数学 知识、复杂的算法、烦琐的编程……深度学习虽然让无数读者心怀向往,却也让不少人望而生畏,深感沮丧:时间没少花,却收效甚微。 如何才能更好的学习深度学习呢? 破解深度学习(基础篇)+(核心篇)就是助你破解深度学习模型算法与实现难题的https://blog.csdn.net/epubit17/article/details/143249852
2.每天应对千万量级增长,扫一扫识物这样快速迭代深度学习模型!微信“扫一扫”识物上线一段时间,由前期主要以商品图(鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他)作为媒介来挖掘微信内容生态中有价值的信息,扩张到各种垂类领域的识别,包括植物/动物/汽车/果蔬/酒标/菜品/地标识别等,识别核心依托于深度学习的卷积神经网络模型。随着每天千万级的增长数据和越来越多https://www.xmyeditor.com/index.php/help/617.html
3.知识科普超详细!一文带你玩转深度学习5. 关于作者 & 总结 5.1 关于作者 徐嘉祁 成都锦城学院 飞桨领航团团长 5.2 总结 本文主要介绍了人工智能、机器学习和深度学习的关系、深度学习的基本概念与发展历程、深度学习的应用和发展前景、生物神经网络的基本原理、M-P神经元模型以及阶跃函数和S型函数两种激活函数、感知机模型的原理与应用、感知机的学习过程https://aistudio.baidu.com/aistudio/projectdetail/6210363
4.AI算法正在操控人类,你越变越笨,却毫不自知日记在自由人生合伙人密训上,我跟学员说,未来属于深度的内容创作者,每个人要搭建自己的知识库,形成自己个人经验和系统学习而塑造的知识体系,在创业的过程中用交付驱动营销,优化优质内容的SEO关键词,而非被肤浅的流量内容和平台算法裹挟。 我花了一个月的时间搭建了自己的个人网站(alinalinzi.com),全球的线上社区和一人https://m.douban.com/note/868195557/
5.AI算法知识3、批量生成:软件支持批量生成图片,快速生成多张图片,大大提高了工作效率。4、一键同款:一键生成大神同款,再定制化修改,体验高品质图片。5、云存储:用户在工业生产线上,AI 能够通过机器视觉、机器学习等技术完成一些简单的装配、检测工作,避免了人工操作的繁琐和低效。精准性AI 能够根据预设的规则和算法,对https://www.zuiyue.com/index.php?route=extension/blog/blog_list&category_id=5&page=18
6.5种小型设备上深度学习推理的高效算法腾讯云开发者社区【导读】文中为AI实践者和研究者们介绍了5种高效模型推断算法,希望这篇文章能够帮助大家更清楚地认识到,在我们所使用的深度学习库的背后,有多少优化正在被应用,从而在像移动电话等小型边缘设备上实现越来越多的实际应用。 随着深度学习的快速发展,神经网络的规模也变得越来越大。例如,在ImageNet识别挑战赛中, 从2012https://cloud.tencent.com/developer/article/1544512
7.基于深度学习的权重计算深度学习算法lgmyxbjfu的技术博客2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被推到了风口浪尖。而其中的深度增强学习算法是AlphaGo的核心,也是通用人工智能的实现关键。本文将带领大家了解深度增强学习的前沿算法思想,领略人工智能的核心奥秘。 前言 https://blog.51cto.com/u_14444/11796212
8.关于机器学习,这可能是目前最全面最无痛的入门路径和资源!但是,各位童鞋,不要慌也不要怕李杰克有自信这应该是目前你在网上能够读到的最全面、最良心、最友好的关于机器学习入门路径和资源分享的文章了。 说它“全面”是因为我为大家梳理了Python及常用库、机器学习算法、深度学习框架的学习路径和资源,就算你不打算根据推荐的资源进入更深的学习,读完文章后,你也应该大https://www.36kr.com/p/5109465.html
9.每日热点1102Nature子刊:深度学习算法可以在显微镜图像中识别出各种细菌 BMJ:人工甜味剂安全性再添新忧!超10万人研究发现,饮食中总甜味剂摄入量高,与心血管疾病和脑血管疾病风险增加9%和18%相关 舆情信息 新冠病毒疫苗接种情况 世卫组织:黎巴嫩霍乱疫情迅速蔓延 “个人碳账户”还应更多些 https://www.sccdc.cn/Article/View?id=30661
10.2020年5月,人工智能与机器学习快速医学成像与高质量图像重建内容:本项目主要由厦门大学计算感知实验室完成,项目依托人工智能与机器学习方法,进行快速高维高分辨磁共振医学成像、高质量图像重建和应用研究,主要包括人工智能成像、基于稀疏表示的压缩感知成像以及基于指数函数的低秩Hankel矩阵/张量图像重建等,相关方法也可以拓展到其它医学和光学成像等。 https://csrc.xmu.edu.cn/index_cn/info/1065/1309.htm
11.阿里云计算有限公司集成了阿里云实时预判的路况预测系统,ET能提供从5分钟到未来1小时精准度高达92%的路况拥堵的预测,可为交通部门提供实时排堵疏导方案支持,为个人提供智慧出行计划指导。 为ET提供技术支持的是基于阿里云分布式计算引擎的机器学习算法平台,平台提供了丰富的组件,包括数据预处理、特征工程、算法组件、预测与评估,所有算法都经https://baike.sogou.com/v6979914.htm
12.计算机科学与技术专业开题报告范文模板:基于深度学习的图像识别近年来,随着深度学习技术的快速发展,图像识别领域取得了长足进步。图像识别技术已经被广泛应用于人脸识别、物体检测、场景分析等领域,深度学习模型在图像分类和识别任务中表现出色。基于深度学习的图像识别算法成为当前研究的热点之一。本研究将基于深度学习,探索图像识别算法的新方法和技术,以提高图像识别的准确性和效率。 https://www.fs-ky.cn/www.fs-ky.cn/kaiti/65604.html
13.GitHub机器学习的数学基础 CS229线性代数与概率论基础 机器学习基础 快速入门 机器学习算法地图 机器学习 吴恩达5. DNN概述 GitHub上的机器学习/深度学习综述项目合集 AlphaTree-graphic-deep-neural-network CNN 发展《21个项目玩转深度学习———基于TensorFlow的实践详解》 最全Tensorflow2.0 入门教程持续更新 Github优https://github.com/qwwz/DeepLearning
14.花十分钟,让你变成AI产品经理(附知识框架脑图)5)Off policy(算法:Qleaning, Deep-Q-Network) 可亲自参与;也可以不亲自参与,通过观看其他人或机器,对其他人或机器进行模仿。 强化学习理论二:agent不需要理解环境、分析环境时,做出决策,该决策正确时奖励,错误时不奖励或惩罚。agent不会在动作时去计算是否得到奖励的概率。 https://www.jianshu.com/p/eba6a1ca98a4
15.算法图书推荐经典书籍畅销书清单Spring 5攻略 R数据可视化手册 第2版 演化学习 理论与算法进展 精装版 C++ Templates(第2版)中文版由浅入深学习SAP财务 大数据测试技术与实践 玩转思维导图 让孩子受益一生的8个思维工具 趋势投资 金融姿势决定健康:每天15分钟,轻松保持强健身体 Maya Python 游戏与影视编程指南 Photoshop CC摄影后期专业技法http://epubit.com/books?code=N30044&type=ushu&seq=0
16.科学网—ChatGPT/GPT4+AI绘图+文本+编程+论文高效写作结合到底有3.熟练掌握ChatGPT融合相关插件的应用,完成数据分析、编程以及深度学习等相关科研项目; 4.掌握各种AI绘图工具,随意生成各类型性图像; ?5.总结会议参加人员关注问题,现场进行辅助指导及交流。 专题一 OpenAI2023年开发者大会及谷歌大模型Gemini等最新技术 https://wap.sciencenet.cn/blog-3539141-1415288.html
17.AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法对于中风患者来说,每一分钟都很重要;治疗耽误的时间越长,结果就越糟。新算法的准确性堪比人类专家,而且比人类专家快150倍。一个更快的诊断有助于医生对最紧急病例进行快速分类,并由人类放射科医生进行复查。 如果用DeepMind在pubmed上检索一下,能发现有323篇文章,很多都是重量级文章,可以说深度学习算法已广泛应用https://www.medsci.cn/article/show_article.do?id=97c6e419443f
18.私域增长社零基础玩转Stable Diffusion,就看这个系列的视频了!Python官网:https://www.python.org/downloadsGit置顶 学会这5个ChatGPT进阶技巧,新手也能30分钟搞定一篇自媒体爆文! 写文章,是 ChatGPT最擅长的能力如何学习chatgpt和机器算法 chatgtp国内版体验地址点击https://m.yuyanmcn.com App下载地址:http:/http://xinyuanhaowu.cn/cn/h-col-146.html