当前位置: 去除器 >> 去除器优势 >> OCR光学字符识别及其应用
什么是光学字符识别?
光学字符识别(OCR)是将PDF,Word,Excel或者文本图像转换为机器编码文本(机构化数据)的一种AI工具。
有了OCR,大量基于纸张的、跨多种格式,多种形式的文档都可以数字化成机器可读的文本,这不仅使存储变得更容易,而且方便在各个系统当中录入数据,进行调用和分析。
试想一下,一个城市或政府,大学,医院地下室里有多少装满文件的档案箱。
OCR是如何工作的?
不同的字体和书写单个字符的方法使这个问题成为一个挑战。在选择OCR算法之前,必须对图像进行预处理,使图像可以被“读取”。
l预处理
OCR软件通常对图像进行“预处理”以增加识别的机会。
技术包括:
1.De-skew(矫正)
如果文档在扫描时没有正确对齐,可能需要顺时针或逆时针倾斜几度,以创建完全水平或垂直的文本行。
2.去除杂点
去除杂点点,平滑边缘
3.二制化
将图像转换为黑白(称为“二值图像”,因为有两种颜色)。二值化任务是作为一种简单而准确的方法从背景中区分文本。
4.消除线
清理非符号框和线条。
5.布局分析或“分区”
将列、段落、标题等标识为块。在多栏布局和表格中特别有用。
6.行字检测
建立单词和字符的形状基线,根据需要划分单词。
7.脚本识别
在多语言文档中,脚本可能在单词级别进行转换,因此在利用相关OCR来管理特定脚本之前,脚本标识是至关重要的。
8.字符隔离或“分段”
对于OCR字符,应将图像链接的各种字符进行分割,将单个字符分割为若干基于伪影的片段进行链接。
9.规格化
规格化纵横比和比例尺。
l特征提取
在OCR中提取特征主要有两种方法:
1,特征检测算法通过评估字符的线条和笔画来定义字符。
2,模式识别的工作原理是识别整个字符。
我们可以通过搜索中间有黑色像素的白色像素行来识别一行文本。类似地,我们可以识别字符在哪里开始哪里结束。
下图分别展示了这些方法的可视化效果:
(方法一:特征检测)
(方法2:对一行文本进行模式识别)
(方法2:单一字符的模式识别)
接下来,我们将字符的图像转换为一个二进制矩阵,其中白色像素为0,黑色像素为1,如下图所示:
(二进制矩阵的样本)
然后,利用距离公式,我们可以找到从矩阵的中心到最远的距离1。
(距离公式)
然后我们创建一个圆形的半径,并将其分割成更细颗粒的部分。
在这个阶段,算法将每个分段与表示不同字体字符的矩阵数据库进行比较,以确定统计上最常见的字符。
通过对每一行和每一个字符进行这样的处理,它使印刷体或者其他非结构化数据源很容易形成数字世界。
(将每个分段与矩阵数据库进行比较)
l后处理
如果有一个词汇表(文档中允许使用的单词列表)的限制,则可以提高OCR的准确性。譬如限制是一个特定领域的专业的词汇。
为了提高准确性,网上有免费的OCR图书馆。
输出流可以是单个字符串或字符文件,但更高级的OCR系统保留原始页面结构,例如,创建包含原始图像页面和可搜索文本图像的PDF。
l误差修正
“近邻分析”可以利用共现的频率来纠正错误,方法是注意到一些单词在一起出现过。例如,“Washington,D.C.”在英语中比“WashingtonDOC”更常见。
l语法
语法也可以帮助确定被扫描的数据,例如,一个单词可能是动词或名词,提供更高的准确性。
OCR的用例
OCR引擎已经发展成一系列特定领域的OCR应用,包括收据、发票、
支票和法律文件
l商业文件的数据输入,例如支票、护照、发票、银行对账单和收据。
l车牌自动识别
l在机场,护照识别和信息提取
l自动保险文档密钥信息提取
l提取名片信息到联系人列表中
l对大型打印文件进行数字版本的处理,例如图书扫描
l使印刷文件的电子图像可检索,如谷歌书籍
l实时转换手写来控制计算机(笔计算)
按行业分类的OCR用例
l银行
银行业和保险、证券等其他经济部门一样,都是OCR的重要消费者。
OCR最常见的用途是妥善管理支票:
手写支票被扫描
内容被转换成数字文本
验证签名
实时清除检查
尽管打印支票几乎需要%的准确性(只有签名验证需要匹配预先存在的数据库),但手写完全识别仍有很长的路要走。
然而,随着深度学习人工智能方法应用于OCR手写,它可能并不像看起来那样不可解决。
从付款人到银行再到收款人,减少支票清算处理时间对每个人来说都是一种优势。
l法律
很少有行业能产生像法律行业那样多的文书工作,因此OCR在这里有多种应用。
使用最简单的OCR阅读器可以对所有打印文件进行数字化、存储、数据库和搜索:宣誓书、判决、文件、声明、遗嘱等。
这种技术也适用于中文、阿拉伯语和其他文字的记录。
对于一个严重依赖历史的行业来说,快速获取数百万过去案件中的法律文件无疑是一个优势。
l医疗保健
另一个与OCR合作良好的行业是医疗保健。整个医疗历史可以被扫描并存储在电脑上:医疗报告、x光片、疾病记录、治疗或诊断、测试、医院记录、保险支付等。这些都可以在一个地方访问,并且可以搜索。
事实上,医院的记录都是数字化存储的,这对流行病学和后勤(维持适当的药店、设备和其他消费品)也有很大的好处。
(OCR对于药品行业应用)
l供应链
在食品、饮料、制药和化妆品行业,每一环节的质量控制对于遵守安全和防伪合规至关重要。
物品必须在任何指定的时刻位于供应链控制内,并有其来源和位置的信息。
虽然产品跟踪通常被认为是一种条形码应用,但OCR允许您阅读批号、有效期和序列号,以跟踪产品在包装周期的所有阶段——从包装标签到码垛操作。
条形码和OCR经常一起使用,以最大限度地提高信息收集的准确性。
当然还有国际货代流程中的托书,箱单,提单,发票,SI,卫生证,到货通知,申报要素,VGM,报关单,签收单,银行水单等等文件,都以非机构化数据出现,都可以通过OCR识别并且结构化。
OCR的好处
功能强大:
您可以以doc,.rtf,.txt(最简单的),pdf等保存您的文件,OCR帮助转换为可读的文本。这些文件可以很容易地使用任何系统进行搜索和利用。
可编辑性:
你可能想修改一份几年前写的旧合同,或者修改一份旧遗嘱。使用OCR将文件数码化后,您可以轻松地用文字处理器编辑它,而不必键入整个文件。
可访问性:
OCR扫描的文件在一个公共数据库上可以访问,这对银行来说尤其有用,因为银行可以随时随地查看客户以前的信用记录。
另一个用途是让政府档案公开,这样你的土地和财产所有权记录或你祖父的出生证明可以在任何地方立即找到。
可存储性:
数字化将存储所需的空间从整个房间(如果不是“房间”)减少到服务器上的字节,提高生产率,节约空间。
备份:
与保留昂贵的纸质复本相比,数字备份可以制作得很便宜,而且可能是无限的。
可译性:
现代OCR可以管理大量的语言,从阿拉伯语到印度语再到汉语。这意味着一种语言的论文可以被搜索、数字化和翻译成任何其他语言。因此,我们几乎可以消除对专业翻译的需求。
OCR将如何帮助您的业务
OCR作为数字化的一种手段有几个优势。在商业中,经常有大量的数据和文件,无论是关于合同、运单、政府表格、许可证、证书、价目表、目录等。
数字化后,你可以将它们与其他几个数字文档进行比较,因此,通过比较文档,你可以轻松地获得最优惠的价格、服务、条款和条件等。
通过使用OCR,您可以检查与您签署的合同的原始条款和条件的差异。同样,支票也可以核对数量,发票也可以比较,等等。
此外,通过数字化文档,您可以访问它们进行最新的分析,提示您如何改进,避税,真实财务状况。
这些其实就是数字化的优势,OCR可能是数字化转型的一个关键步骤。
Thanks:ForoughKarandish
编辑:朱亚泼
作者:曾志宏,北科大毕业,新加坡国立大学MBA,曾服务于GE,Rolls--Royce,JCI,Ariba等国际性企业,上海趋研科技联合创始人。