如何在 C# 中从 pdf 或 word 文件中提取文本(删除粗体、图像和其他富文本格式媒体)?
最佳答案
您可以使用为索引服务设计/使用的过滤器。它们旨在从各种文档中提取纯文本,这对于在文档中搜索很有用。您可以将它用于 Office 文件、PDF、HTML 等,基本上任何具有过滤器的文件类型。唯一的缺点是你必须在服务器上安装这些过滤器,所以如果你不能直接访问服务器,这可能是不可能的。一些过滤器预装在 Windows 中,但有些过滤器,如 PDF,您必须自己安装。对于 C# 实现,请查看这篇文章:Using IFilter in C#
关于c# - 从pdf和word文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3652952/