Python 读取pdf文件

Python 实现读取pdf文件简单示例。

安装命令

需要安装操作pdf的三方类库，命令如下：

pip install pdfminer3K

安装过程如下：

引入类库

需要引入很多的类库。

示例如下：

import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter importPDFPageAggregatorfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfrom pdfminer.pdfinterp import PDFTextExtractionNotAllowed

读取pdf实现

实现步骤为：先通过二进制方式打开测试pdf文档，创建pdf文档解析测试文档内容，

最后读取文件内容，保存到另一个文件中。

示例如下：

import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfrom pdfminer.pdfinterp import PDFTextExtractionNotAllowedimport osdef read_pdf(path, toPath):# 以二进制方式打开pdf文件f = open(path, 'rb')# 创建一个pdf文档分析器parser = PDFParser(f)# 创建pdf文档pdfFile = PDFDocument()# 链接分析器与文档对象parser.set_document(pdfFile)pdfFile.set_parser(parser)# 提供初始化密码pdfFile.initialize()# 检测文档是否提供txt转换if not pdfFile.is_extractable:raise PDFTextExtractionNotAllowedelse:# 解析数据# 数据管理器manager = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(manager, laparams=laparams)# 解释器对象interpreter = PDFPageInterpreter(manager, device)for page in pdfFile.get_pages():interpreter.process_page(page)layout = device.get_result()for x in layout:if isinstance(x, LTTextBoxHorizontal):with open(toPath, 'a', encoding='utf-8') as f:print(x.get_text())f.write(x.get_text() + "\n")path = os.path.join(os.getcwd(), 'test_1.pdf')toPath = os.path.join(os.getcwd(), 'test_2.txt')read_pdf(path, toPath)

注意：无法读取中文，貌似需要加载中文字体。还有就是在写入pdf文件，格式不对无法打开暂时没找到原因。

总结

本篇只是使用Python 实现读取pdf文件简单示例，因为时间关系没有做深入的扩展，等之后有时间再做补充。

Python 读取pdf文件

安装命令

引入类库

读取pdf实现

总结

最新关注

热文推荐

历史性时刻：比特币现货ETF终获批，加密开闸时刻会是长牛新起点吗

Apache Paimon Append Scalable表解析

机器人和AI大模型的结合：如何打造智能化的物流和配送解决方案？

如何运行vue打包之后的dist文件

前端学习6：HTML链接

C 语言运算符详解

Python 读取pdf文件

安装命令

引入类库

读取pdf实现

总结

相关文章

最新关注

热文推荐