中文OCR技术的研究与应用

OCR(OpticalCharacterRecognition)的概念诞生于1929年,由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出了对文字进行识别的想法,但这种梦想直到计算机诞生后才变成为现实。现在这一技术已经由计算机来实现,OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别,并将其转化为计算机内码。

根据资料记载,第一个OCR软件是在1957年开发的ERA(ElectricReadingAutomation)。它是基于窥视孔方法实现的,识别的速度是每秒120个英文字母。在此以后,世界范围内广泛地进行着OCR技术的研究和开发工作。从OCR技术的发展历程来看,可分为三个阶段:

第一阶段:第一代OCR产品出现于60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。

第三阶段:第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的OCR系统-OCR-V595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作,经过不断改进,针对手写印刷体日文汉字的识别现在已经达到实际应用水平。

我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果。

二、中文OCR

进入信息社会后,计算机已经渗透到人们生活的方方面面,如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术"瓶颈",中文OCR系统使中文输入工作高速化、自动化及高准确度,为建立各种信息库提供了基础条件。我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发,是中文OCR技术进步的最重要推动力。从80年代中期开始,国内开始了中文OCR的研究热潮,到90年代中期,国内外共有10多家单位(包括汉王公司、国外的IBM、HP公司)相继推出了各自的中文OCR系统,达到可初步实用化的水平。

从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:

⑴印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;

⑵印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;

⑶多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;

⑷各种应用系统开始推出,如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。

但由于新世纪初中文OCR的识别率偏低,用户满意度低,几乎没有OCR的行业应用项目,随着国内信息化建设的进展,市场迫切需要解决多字体大字符集、中英文混排、简繁混排、表格识别的识别率和识别速度问题,版面的理解与还原问题,识别系统对各种应用需求的适应性问题以及用户使用的方便性问题。

三、汉王中文OCR

1、技术研究的总体思路

(1)聚焦核心,突破关键技术

–超大类字符集识别

从识别特征选择与变换、分类器设计及集成等方面解决汉字多字体、大字符集的识别问题;

基于SVM的语言分类器区分中英文;

高精度脱机手写体汉字、数字识别;

–表格识别与还原

采用模糊直线拟合技术解决虚线、断线等问题。

–复杂背景、复杂版面分析的理解与还原

报纸、杂志、票据、名片、证照、信封等;

视频图像中复杂背景下文字搜索与识别;

–嵌入式OCR

克服空间小、CPU速度慢等条件的限制,实现在手机等移动终端中的应用。

(2)软硬结合,推进光电设备向专业应用发展

–用于增值税发票识别、银行票据识别等的高速扫描仪

–用于证照识别、名片识别等的专用小型扫描仪

–用于车牌号码识别的嵌入式摄像设备

–用于智能手机名片识别的摄像头改进

–零售市场

文本王、名片通、OCR录入工厂(海量文献自动录入系统)

–行业应用

增值税发票识别、证照识别、银行票据识别、邮政地址识别、车牌号码识别、工业系统中OCR如:硅晶片OCR

OCRSDK、扫描仪OCR捆绑版、智能手机嵌入式OCR识别

2、应用系统

"汉王OCR表格文字识别系统":该系统是汉王OCR为扫描仪捆绑销售定制的普及版本,市面上70%以上的扫描仪都配有该版本,比较常见的子版本有“汉王OCR5.0”、“汉王OCR6.0”、“尚书五号”、“尚书六号”、“尚书七号”,能识别简体二级字、繁体5401字和英文,可以处理彩色、灰度、二值图像,对普通的文档有很高的识别率,还具有版面还原功能,能满足普通办公与家庭用户的非专业录入需求。

“汉王增值税发票识别认证系统”:1998年项目组了解到国家金税工程中防伪税控认证工作费时费力后,经过多方面的考证与分析,率先提出了通过高速扫描仪扫描并识别税票的各项要素的识别方案,从而能自动完成税票的解密(通过金税卡)和比对工作,大幅度提高认证的速度和效率。经过采集大量的现场税票票据进行分析后,项目组克服了实际票据倾斜、噪声污染、位置偏差较大及部分发票发淡等困难,设计实现了增值税票内文字的提取算法和强噪声条件下小字符集高识别率识别核心,并在此技术上开发出“汉王增值税发票识别认证系统”。该系统能够适应市面上的几乎所有高速扫描仪和平板扫描仪扫描的税票图像,经实际测试对票面良好的增值税发票整张识别率在90%以上(每张发票上均有160个字符需要识别,整张识别率是指发票上160个字符全部识别正确的比率),识别速度2秒/张,能够满足大量票据的自动准确录入需求;2001年“汉王增值税发票识别认证系统”和汉王高速扫描仪中标国税总局24省市金税招标项目,到目前为止项目实施情况良好,每年录入发票超过亿张,目前面向企业应用的版本的销量也已超过1万套。

“汉王文本王”:2002年开发成功“汉王文本王2.0”,利用汉王OCR先进的版面分析、版面还原技术和中英文识别技术,率先实现了“一键OK识别输出到WORD”的全自动识别模式,2004开发成功“多字体大字符集汉字、表格识别方法与系统(汉王文本王4.5版)”,系统在解决中英文混排、简繁混排、表格分析等问题上的创新主要反映在:⑴采用多特征组合优化和多识别内核集成方法,在多字体大字符集汉字识别的识别率和速度方面取得了突破性进展;⑵实现了一种基于SVM的语言分类器,有效地支持了中英文混排识别;⑶提出了一种实用的表格分析方案,有效地解决了表格线粘连及断线等问题。经鉴定委员会专家测试组测试得出:系统对多字体、多字号、大字符集、简繁混排、中英文混排的识别率为99.57%。鉴定委员会一致认为,该系统在识别方法和技术上有创新和突破,识别率高,识别速度快,实用性强,有效解决了中英文混排、多字体混排识别问题,在中文印刷体的识别率和识别速度等主要性能指标上达到国际领先水平,并一致同意通过成果鉴定。

“汉王OCR录入工厂系统软件”:是结合强大的网络功能实现流水线方式的数据加工系统,由客户端程序和服务器端管理程序两部分组成,客户端程序按照扫描、图像预处理、版面分析、识别、纵校、横校和版面还原保存七道工序进行操作;服务器端管理程序自动给各岗位分配任务、进行任务协调,并加入了科学的质量控制、岗位管理功能,使各客户端的任务既相互独立又形成完整、高效的生产流程。实际应用表明,流水线平均每人每班次生产10万字以上,整体差错量控制在万分之一以内,比手工录入的速度提高了5-8倍,录入质量和效率同步大幅度增长,为信息化建设提供了强大的数据加工方案。专家鉴定委员会一致认为:“汉王OCR录入工厂系统软件”是比较完善的信息资源加工工具,对图书、文献等信息资料的数字化建设,具有十分重要的意义,“汉王OCR录入工厂系统软件”生产效率高,实用性好,整体技术水平达到国际领先,同意通过鉴定。

"汉王邮政地址识别系统":由于国内邮政编码使用不规范,基于邮政编码的信函分拣技术在国内遇到了很大的困难,该系统实现了结合邮政编码识别和地址识别的信函分拣解决方案,包括按照预处理,手写信函与印刷体信函分类,版面分析,邮政编码识别,地址行分割与单字切分,单字识别,地址与邮编校对几个步骤。采用基于概率子空间的两类分类器区分手写信函与印刷体信函,采用聚类法进行行分割,采用动态规划方法进行单字分割,采用多分类器集成的单字识别方法,采用统计语言模型提高地址识别正确率。

“汉王嵌入式OCR系统”:该系统采用曲线拟合的非线性归一化方法,然后融合梯度方向特征和外轮廓差分特征,在此基础上采用两层分类结构。第一层分类采用部分特征分类方法,第二层分类采用LVQ4方法来做识别模板类中心的微调。识别字符集为国标GB2312-1980的二级6763汉字、繁体5401汉字、香港常用汉字,数字和英文字符,识别字体包括宋体、仿宋体、楷体、黑体、圆体、隶书、隶变、魏碑、行楷、综艺等常见字体。识别核心占用空间1兆字节,识别率在98%以上,在100兆主频的CPU上,每秒钟能识别40-50个字符,基本解决了嵌入式系统中识别字典和识别速度所受到的限制问题。在此基础上,成功的开发了利用手机、数码相机等信息终端系统实现对文本的识别输入和名片的识别管理等功能。

3、实施效果

汉王OCR的项目成果使我国的OCR技术及应用走到了世界的前列,尽管IBM、HP、日立、东芝、夏普、NEC、理光等国外公司曾经巨额投入该领域,但是汉王的技术领先性迫使他们退出了竞争。

汉王OCR的技术路线是先突破关键技术,同时重视软硬件的有机结合,然后面向用户推出实用化的应用系统。从实施效果来看,这种思路非常适合现阶段我国软件产业的现状,并为推动我国自主知识产权软件的发展壮大做了有益的探索。

四、汉王OCR与当前国内外同类技术的比较

目前从事汉字识别技术研究的单位主要在中国大陆和台湾、新加坡、美国等地,公司主要有汉王科技、北京文通、台湾蒙恬、台湾力新和新加坡热卡公司。汉王公司率先推出多字体大字符集简繁混识的识别核心,能够识别常见的十几种字体及其变体,识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字,各种字体的识别率都在99%以上。

在2000年CHIP新电脑杂志组织的6款中文OCR的横向测试评比中“汉王OCR新世纪版”获得14个单项中的11项第一名、3项第二名和总分第一名的优异成绩,同时参加评测的还有市场上所有中文OCR。

2001年开发成功的“汉王名片通5.0”支持简繁混排的中文名片识别,同期其它中文名片识别系统(如蒙恬名片王、维优名片管家)不支持简繁混排识别。

汉王OCR的行业应用系统"汉王银行票据识别系统"、"汉王增值税发票识别认证系统"、"汉王OCR录入工厂软件系统"、“汉王OCR证照识别系统”,都在应用部门的技术评测中得到认可。

在嵌入式OCR研究中,简繁混识的多字体大字符集汉字识别核心的识别字典已能压缩至2M字节,2004年经过Nokia公司组织的竞争测试后赢得技术合作合同,参加测试的还有国内另一家公司和新加坡热卡公司。汉王嵌入式OCR技术在2005年又取得了新的突破,多字体大字符集汉字识别字典已能压缩至1M字节,并与Nokia签定了长达7年的合作合同,同时,采用汉王嵌入式OCR技术的LG手机也已开始上市销售。

此网站支持IE9及以上浏览器访问

地址:北京市海淀区中关村东路95号邮编:100190Email:casia@ia.ac.cn

THE END
1.手写文字秒变数字文本,4款识别神器,手机电脑网页全搞定!00:00/00:00 评论 还没有人评论过,快来抢首评 发布 手写文字秒变数字文本,4款识别神器,手机电脑网页全搞定! 小李爱分享工具 发布于:陕西省 2024.12.08 16:35 +1 首赞 收藏 手写文字秒变数字文本,4款识别神器,手机电脑网页全搞定! 推荐视频 已经到底了 热门视频 已经到底了 http://biznews.sohu.com/a/834360725_121884186
2.原来计算机是这样识别手写数字的…#人工智能#AI原来计算机是这样识别手写数字的 #人工智能 #AI “特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user https://v.ifeng.com/c/8fO8dqhD53b
3.2024文字识别v3.7.5老旧历史版本安装包官方免费下载文字识别介绍 把你的手机变成一个强大的扫描仪,可扫描任何东西,包括文件、纸质笔记、试卷和书籍,把它们扫描成清晰的PDF文件和图像,还有拍照数钢管、数钢筋、数竹签等点数相机的功能。批量快速扫描:- 批量连续扫描,提高效率,快速方便文本识别(OCR):- 智能OCR文字识别,手机拍纸质文档,瞬间生成高清文字,OCR可从单 页中https://www.wandoujia.com/apps/8377011/history_v10
4.新华字典手写输入查字功能,轻松掌握汉字魅力使用新华字典手写输入查字功能非常简单。用户只需在电子设备上打开新华字典应用,选择手写输入查字功能,然后按照提示手写相应的汉字即可。系统会自动识别用户输入的汉字,并显示相关的汉字信息。用户还可以通过该功能了解汉字的演变过程、相关词语等。 三.新华字典手写输入查字功能的优势 http://m.xmjedu.com/zhhyzx/202412/597996.html
5.OCR技术入门OCR(Optical Character Recognition,光学字符识别)技术是一种将不同来源的文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)中的文字转换成可编辑和可搜索的数据的技术。 1.工作原理 图像预处理:包括去噪、二值化、倾斜校正等,以提高识别准确率。 https://www.jianshu.com/p/875728311a51
6.OCR(脱机手写汉字识别与印刷汉字识别)脱机手写汉字识别的用途是把手写字符用字符阅读器自动输入计算机,常用于信函分拣、银行支票识别和统计报表处理以及手写文稿的自动输入。 从工作原理上说,脱机手写汉字识别和印刷汉字识别是一样的。但是由于手写汉字字形变化大,上一章中介绍的各种印刷汉字识别特征和方法不完全适用,目前也还没有一套行之有效的识别方法。这https://blog.csdn.net/byxdaz/article/details/469557
7.等设备如何利用三万字符库实时识别手写汉字极客公园在智能和移动设备十分普遍的今天,手写字符识别的重要性愈加显现出来,在手机、便携设备、可穿戴设备以及智能手表上都会有十分重要的应用。对于移动设备端的设备来说中文手写字符识别需要大规模的字符库支持。 这篇文章阐述了我们如何在苹果的移动设备上实现实时手写中文字符识别的过程。通过深度学习技术这一系统可以在较高的https://www.geekpark.net/news/222781
8.手写汉字识别(精选七篇)基于神经网络的手写汉字识别在众多领域中应用广泛, 比如在信息处理领域, 通过手写汉字识别系统的应用就能够使纸质文档的电子化效率得到大大提高。若将汉字识别的速度与准确度都提高到比人工手动输入更高的层次, 这样在提高效率时又节省了大量的人力资源。因此, 研究基于神经网络的手写汉字识别试验系统能够有效实现汉字信息https://www.360wenmi.com/f/cnkeykw5zpgd.html
9.基于嵌入训练和合成样本的中文手写字符串识别【摘要】:中文字符识别是模式识别领域中极具有挑战性的难题之一。目前,印刷汉字识别和联机手写汉字识别已逐步实用化,而脱机手写汉字识别因其自身的复杂性被视为汉字识别领域“最后一座城堡”。最新发布的文本行级中文手写库HIT-MW使得这一领域重新成为热点,HIT-MW库首次关注真实手写环境下的文本识别。本文将中文手写字符https://cdmd.cnki.com.cn/Article/CDMD-10213-1011259908.htm
10.全球法规网修订后的《中国禁止出口限制出口技术目录》已经2008年4月10日商务部第3次部务会议、2008年9月3日科学技术部第22次部务会议审议通过,现予发布,自2008年11月1日起施行。原对外贸易经济合作部、科学技术部2001年第16号令发布的《中国禁止出口限制出口技术目录》同时废止。 http://policy.mofcom.gov.cn/claw/clawContent.shtml?id=464
11.基于手写识别芯片的汉字手写输入技术1 ePH1200的特点与手写体辨识过程 ePH1200手写体辨识芯片内嵌蒙恬手写识别软内核,能对国标汉字(共6 763个)、ASCII码字符以及其他一些特殊字符的手写体进行辨识,支持笔划连写,识别正确率高达99.9%;提供备选字输出,输出结果为 Unicode编码或者GB2312国标码,单字辨识时间约为0.34 s。ePH1200具有CSP24和LQFP44两种封装型式https://www.hqew.com/tech/fangan/1205043.html
12.手写汉字识别是一种重要的适用于把手写文稿随时输入计算机的手写汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法,也是机器字符识别最为困难的一个课题,这些困难和问题表现在:汉字类别多。汉字字形结构复杂。( ) A. 正确 B. 错误 题目标签:文稿把手如何将EXCEL生成题库手机刷题 如何制作自己的在线小题库 > 手机使用 分享 反馈 收藏 举报 https://www.shuashuati.com/ti/dbfe4cba0c754e6bab4e31c0cb5cd60f.html?fm=bdc73cd5b32a8463e0be45a761073dd4d7
13.机器学习手写汉字识别手写文字识别原理分类识别:最常用的模型包括改进的二次判决函数(MQDF)、支持向量机(SVM)、隐马尔科夫模型(HMM)、鉴别学习二次判决函数(DLQDF) 和 学习矢量量化(LVQ)等。 注:对手写字符而言, 目前最好的特征基本上都是统计特征 2. 脱机手写汉字识别 2.1 脱机手写识别——方法比较 https://blog.51cto.com/u_16213617/10355698
14.手写汉字数据集(部分)Mnist中文手写数字数据集Python 上传者:xdpcxq时间:2023-12-05 CNN卷积神经网络识别手写汉字MNIST数据集.zip 这是我修改的别人的代码,别人的代码有点问题,我修改了一下,代码的正确率很高,可达90%以上,这是一个5层卷积神经网络的代码,误差传递和梯度更新代码里都有,可自学。 https://www.iteye.com/resource/qq_27280237-10648261
15.ModelBoxOCR实战营手写汉字识别手写汉字识别 MNIST手写数字识别教程中,我们学习了最简单的OCR应用:10个手写数字的识别;本文我们提高难度,增加待识别的字符数,构造一个分类器,识别3755个常用汉字,也是手写体,而且图片中不只包含一个汉字,汉字在图片中的位置也不是固定的,需要先进行文字定位。 https://developer.huaweicloud.com/develop/aigallery/article/detail?id=ee6a4be0-f127-47f3-86c2-b4b5d10d61b2
16.新型的端到端弱监督篇幅级手写中文文本识别方法PageNet该工作针对篇幅级手写中文文本识别问题,提出了端到端弱监督的方法PageNet。该方法的主要优势在于:(1)为了验证弱监督学习方法的泛化性,合成数据采用将字体文件生成的汉字贴到简单背景上的方法,因此与真实这些字符间根据阅读顺序模块得到的搜索路径中的网格可以以较高置信度判定为不存在单字,如此一来即可优化https://www.elecfans.com/d/1979470.html
17.handwrittenchinese目前国内有很多优秀的中文手写识别数据集。例如:北京邮电大学模式识别实验室发布的数据(HCL2000),它是目前最大的脱机手写汉字库,共有1,000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。本文使用的是中科院自https://github.com/taosir/cnn_handwritten_chinese_recognition
18.手写汉字ocr识别的方法是什么?ocr识别的好处有哪些?ocr识别是什么意思 ocr识别是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、https://www.foxitsoftware.cn/scanner/jiaocheng/469.html
19.支持简体以及手写体识别和竖排繁体中文小巧免费的图片文字识别OCR软件 支持简体以及手写体识别和竖排繁体中文,程序员大本营,技术文章内容聚合第一站。https://www.pianshen.com/article/27031879961/
20.AI神经网络和手写识别AI 手写的未来 手写识别技术方兴未艾。 我们已经在努力扩展 AI 的能力,目的是让它能够解决包括自动语言识别和交互式手写表格在内的问题。 我们相信,深度学习模型提供了巨大的发展潜力,并且能帮助我们在自然语言处理和布局分析等以前不相关的研究领域中也统一使用该方法。 结合日益普遍的触屏数字设备,我们相信 AI 将助力https://www.myscript.com/zh-hans/handwriting-recognition
21.手写文字识别recognize_granularity string 选填 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 words_type string 选填 words_type=number:手写数字识别;无此参数或传其它值 默认手写通用识别(目前支持汉字和英文) 返回参数说明: 名称类型说明 log_id uint64 唯一的log id,用于问题定位 words_resulthttp://www.free-api.com/doc/15
22.害怕字体侵权?来看这份超详细的字体版权避坑指南!优设网目前,文泉驿已经开发并发布了第一个完整覆盖 GB18030 汉字(包含 27000 多个汉字)的多规格点阵汉字字库,第一个覆盖 GBK 字符集的开源矢量字库(文泉驿正黑),并提供了目前包含字符数目最多的开源字体──GNU Unifont。 濑户字体 字体为濑户制作的免费字体,字体包含中文繁体常用字及多国语言。https://www.uisdc.com/avoiding-pits-in-font-copyright
23.手写文字识别在线腾讯云开发者社区在线ocr文字识别软件哪个好?楼主给你说哦!其实没有必要咋先ocr文字识别的,可以使用专业的第三方软件来进行ocr文字识别的。拍照文字识别软件在线 1、先把需要翻译的资料或者图片准备好,然后在找到如下的工具。 手写文字有什么好的在线识别软件?可以用汉王识文,https://cloud.tencent.com/developer/information/%E6%89%8B%E5%86%99%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E5%9C%A8%E7%BA%BF