OCR全称是optical character recognition,中文光学字符识别。

主要技术是:把图像形状转变为文本字符。

简单来说,OCR技术就是通过图像处理和模式识别技术对光学的字符进行识别,即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

OCR 支持各类纸质文件、证件识别、名片识别、车牌识别、票据类等印刷体识别,可以有效解决人工手动录入信息。

文档文字识别:可以将图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行电子化管理,实现精准地保存文献资料。

自然场景文字识别:识别自然场景图像中的文字信息如车牌、广告干词、路牌等信息。对车辆进行识别可以实现停车场收费管理、交通流量控制指标测量、车辆定位、防盗、高速公路超速自动化监管等功能。

票据文字识别:可以对增值税发票、报销单、车票等不同格式的票据进行文字识别,可以避免财务人员手动输入大量票据信息,如今已广泛应用于财务管理、银行、金融等众多领域。

证件识别:可以快速识别身份证、银行卡、驾驶证、名片等卡证类信息,将证件文字信息直接转换为可编辑文本,可以大大提高工作效率、减少人工成本、还可以实时进行相关人员的身份核验,以便安全管理。

OCR技术路线图总体上可分为五步:

图像预处理、切割字符、识别字符、恢复版面、后处理文字。

OCR技术需要识别成结构化(图片、文字、公式、表格并形成可独立提取出来的数据),识别结果需要形成Word或Excel文件。

在进行OCR之前,是需要对图像进行预处理(进行彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等),因为,待识别的图像千奇百怪,来源复杂,各式各样,有拍照、有扫描、有截图。

图像预处理:对包含文字的图像进行处理以便后续进行特征提取、学习。单拿扫描文件来说,扫描文件有的歪的、出现光影、或者皱巴巴等,如果不进行预处理,OCR也会感到很为难,所以需要前期进行预处理。

切割字符:字符切割则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。为什么要把每个字符都切割出来呢?因为OCR最终是对单个字符进行识别的,并且还需要对每个字符做好标记,因为识别完了,还得还原回去。

识别字符:OCR通过学习一些样本之后,对字符进行正确的识别。

恢复版面:OCR识别出了字符后,在进行有效地连接起来。

后处理文字:OCR识别的最终目的,是要获得一份准确的、结构化的文本内容。比如对汉字的识别,由于汉字中形近字的存在,很容易将一个字识别成其形近字。后处理中可以去解决这个问题,比如通过语言模型来进行校正。或识别完后出现个别文字不正确,到这一步OCR进行智能校正,根据结合语境来帮你纠正。