• 写在前面
    • 智能文档处理面临的技术难题
    • 智能文档处理的研究领域
      • ● 文档图像分析与预处理
      • ● 手写板反光擦除
      • ● 版面分析与文档还原
    • 写在最后

写在前面

VALSE 2023 无锡视觉与学习青年学者研讨会近期在无锡国际博览中心举办,由江南大学和无锡新吴区联合承办。本次会议旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供学术交流和成长的平台。

作为一个以计算机视觉和机器学习为主题的国际会议,VALSE 2023 无锡视觉与学习青年学者研讨会旨在为全球相关领域的华人青年学者提供一个学术交流和成长的平台。本次会议将汇聚来自世界各地的华人青年学者,就计算机视觉、模式识别、机器学习和多媒体技术等领域进行深入的交流和探讨。

在大会的 VALSE Workshop 环节,上海合合信息技术代表就《智能文档图像处理技术应用与实践》主题进行了分享,针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

以下我对大会上所涉及到的部分技术进行简略解读:

智能文档处理面临的技术难题

当下智能文档处理面临的技术难题主要包括以下几个方面:

  • 文档类型和格式繁多
    文档类型和格式繁多,包括报告、合同、发票、证明、证件等,不同类型的文档有不同的格式和布局,给智能文档处理带来了困难;
  • 文档图像处理繁杂
    场景及版式多样,文档中常常包含图片、表格、图形等各种图像,这些图像的处理对智能文档处理提出了挑战,例如弯曲、阴影、摩尔纹、字迹不清晰等问题;
  • 自然语言处理困难
    文档通常包含自然语言文本,自然语言处理技术目前还不够成熟,无法完全理解文档中的语义信息,给智能文档处理带来了困难;
  • 数据隐私和安全
    在智能文档处理中,需要处理大量的个人和企业数据,如何保证数据隐私和安全是一个重要的问题;
  • 跨语言和跨文化障碍
    文档处理还需要面对跨语言和跨文化障碍,不同语言和文化之间的差异给智能文档处理带来了困难。

此外还有采集设备不确定、用户需求多样、文档图像质量退化严重、文档检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题。

智能文档处理的研究领域

作为行业领先的人工智能及大数据科技企业,合合信息致力于通过智能文字识别及商业大数据领域的核心技术、C 端和 B 端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。在智能文档处理的研究领域有着显著成效:

● 文档图像分析与预处理

在文档图像分析与预处理方面的技术主要包括 ROI提取:通过 ROI 提取技术,快速从文档图像中提取出感兴趣的区域,如文本区域、图像区域、表格区域等,提高后续处理的速度和准确性;干扰去除:通过干扰去除技术,去除文档图像中的噪声、斑点、划痕等干扰物,从而提高文档图像的质量和可读性;形变矫正:通过形变矫正技术,矫正文档图像中的形变,如弯曲、扭曲等,从而提高文档图像的平整性和一致性;图像恢复:通过图像恢复技术,恢复文档图像中的缺失部分和模糊部分,从而提高文档图像的完整性和清晰度;图像增强:通过图像增强技术,增强文档图像中的文本、图像等关键信息,从而提高文档图像的可读性和可识别性。

此外合合信息的弯曲矫正系统 pipeline 在图像获取、预处理、形变矫正、图像恢复/增强方向均有着显著能力,可帮助用户更快速、更准确地完成文档处理任务,提高文档处理效率和准确性。

● 手写板反光擦除

反光擦除技术能够帮助我们更快速、准确地完成手写板书写任务,提高手写板书写效率和准确性。首先通过相机、扫描仪等设备获取带有反光的手写板图像;然后将其转换为数字图像格式;接下来对原始手写板图像进行预处理,包括去噪、去除背景、裁剪、缩放等操作,以提高图像质量和可用性;预处理完成后,就是反光的检测与消除,采用基于深度学习的反光检测算法,对预处理后的手写板图像进行反光检测;采用基于深度学习的反光消除算法,对反光区域进行消除;随后对反光消除后的图像进行增强,包括对比度增强、亮度增强、锐化等操作,以提高图像的可读性和可识别性;最后就是对增强后的图像进行后处理,包括二值化、连通域分析、边缘检测、字符识别等操作,以实现对手写板图像的智能化处理和应用。


最终擦除效果是这样的;

● 版面分析与文档还原


版面分析与文档还原技术主要基于这样的思路:

  • 图像获取:通过相机、扫描仪等设备获取原始文档图像,将其转换为数字图像格式;
  • 预处理:对原始文档图像进行预处理,包括去噪、去除背景、裁剪、缩放等操作,以提高图像质量和可用性;
  • 版面分析:采用基于深度学习的版面分析算法,对预处理后的文档图像进行版面分析。该算法通过分析文档图像中的文本区域、图像区域、表格区域等,实现对文档的版面分析和划分;
  • 区域分割:采用基于深度学习的区域分割算法,对版面分析后的文档图像进行区域分割。该算法通过分析文档图像中的文本、图像、表格等区域,实现对文档的区域分割和识别;
  • 文档还原:采用基于深度学习的文档还原算法,对区域分割后的文档图像进行文档还原。该算法通过分析文档图像中的文本、图像、表格等区域,学习得到相应的还原模型,并将其应用于原始文档图像中,以实现文档还原;
  • 图像增强:对文档还原后的图像进行增强,包括对比度增强、亮度增强、锐化等操作,以提高图像的可读性和可识别性;
  • 后处理:对增强后的图像进行后处理,包括二值化、连通域分析、边缘检测、字符识别等操作,以实现对手写板图像的智能化处理和应用。

比如一张 jpg 图片,也可以还原为 word 然后输出,而且支持段落属性等的设置。

写在最后

以上先进的图像处理和计算机视觉技术,不仅能够实现对各种图形图像的高效处理和分析,而且其技术可以应用于多个领域,如金融、医疗、教育、物流等,为用户提供便捷、高效的图形图像处理服务。在金融领域,图像处理技术可以用于识别和处理各种票据、证件、合同等文档,帮助银行、保险公司等金融机构快速、准确地处理大量的业务单据,提高业务效率和准确性。在医疗领域,图像处理技术也可以用于诊断和治疗的各种影像数据的分析和处理,帮助医生更准确地诊断病情和制定治疗方案等。