之前的文章提供了批量识别pdf中英文的方法,详见【python爬虫】批量识别pdf中的英文,自动翻译成中文上。以及自动pdf英文转中文文档,详见【python爬虫】批量识别pdf中的英文,自动翻译成中文下。以及Python统计pdf中英文单词的个数。

本文实现Python统计pdf中中文字符的个数。

文章目录

    • 一、要统计中文字符的pdf文档
    • 二、识别pdf中的字符
    • 三、统计单个pdf中字符数量
    • 四、统计文件夹中所有pdf的字符数量

一、要统计中文字符的pdf文档

  
首先看下要统计中文字符的pdf长什么样。

  

二、识别pdf中的字符

  
接着应用pdfplumber库识别pdf中的字符,具体代码如下: