我正在尝试寻找可以从 word 文档的第一页中提取文本的 Python 脚本。我发现可以处理段落但不能处理页面的函数,这不是我需要的。
最佳答案
问题是,docx 格式的页面是纯虚拟的。 MS Word 根据文本大小和其他参数自行决定放置页面限制器的位置和时间。
当用户明确设置分页符时会更容易一些,因为可以像描述的那样找到它们 there ,例如。
作为解决方法,您可以只计算每页的行数并自行修剪,但据我所知,没有“简单”的方法可以用 1 行代码完成所有事情。
关于python - 使用python从word文档的第一页提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52499767/