python提取word文档内容的示例

一、微软Word历史、背景：

Word 的特异功能就是把那些应该写成简单的 TXT 或 PDF 格式的文件，变成了既大又慢且难以打开的怪兽，它们经常在系统切换和版本切换中出现格式不兼容，而且因为某些原因在文件内容已经定稿后仍处于可编辑的状态。Word 文件从未打算让人频繁传递。不过它们在一些网站上很流行，包括重要的文档、信息，甚至图表和多媒体；总之，那些内容都应该用 HTML代替。

大约在 2008 年以前，微软 Ofﬁce 产品中 Word 用 .doc 文件格式。这种二进制格式很难读
取，而且能够读取 word 格式的软件很少。

为了跟上时代，让自己的软件能够符合主流软件的标准，微软决定使用 Open Ofﬁce 的类 XML 格式标准，此后新版 Word 文件才与其他文字处理软件兼容，这个格式就是 .docx。

Python 对这种Open Ofﬁce 和 Microsoft Ofﬁce 都在使用的 .docx 格式的支持还不够好。虽然有一个 python-docx 库，但是只支持创建新文档和读取一些基本的文件数据，如文件大小和文件标题，不支持正文读取。

想读取 Microsoft Ofﬁce 文件的正文内容，我们需要自己动手找方法。

二、从文件读取XML：

from zipfile import ZipFilefrom io import BytesIOfrom bs4 import BeautifulSoupwordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()wordFile = BytesIO(wordFile)document = ZipFile(wordFile)xml_content = document.read('word/document.xml')print(xml_content.decode('utf-8'))

这段代码将Word文档读成二进制文件对象，再用标准库zipfile解压，再读取这个解压文件，这样就成为XML格式了。运行的输出结果包含了大量信息，但是被隐藏在XML格式里面。观察后会看到文档的正文内容都包含在标签里面。这样就容易处理了。

三、用BeautifulSoup处理正文内容的XML标签：

from zipfile import ZipFilefrom io import BytesIOfrom bs4 import BeautifulSoupwordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()wordFile = BytesIO(wordFile)document = ZipFile(wordFile)xml_content = document.read('word/document.xml')wordObj = BeautifulSoup(xml_content.decode('utf-8'), features="lxml")textStr = wordObj.findAll('w:t')for textElem in textStr:print(textElem.text)

为了以XML格式解析这个文档，需要在BeautifulSoup构造方法中指定关键字参数features=’lxml’。word对象的findAll方法将带标签的正文内容返回了一个列表。遍历此列表时，引用列表元素textElem的text属性，就去除了所有七七八八的标签，只剩下纯粹的正文内容了。也可以看到word是如何对文字进行断行处理的。

文章版权归作者所有，未经允许请勿转载。

THE END