c# - 从pdf和word文件中提取文本

如何在 C# 中从 pdf 或 word 文件中提取文本(删除粗体、图像和其他富文本格式媒体)？

最佳答案

您可以使用为索引服务设计/使用的过滤器。它们旨在从各种文档中提取纯文本，这对于在文档中搜索很有用。您可以将它用于 Office 文件、PDF、HTML 等，基本上任何具有过滤器的文件类型。唯一的缺点是你必须在服务器上安装这些过滤器，所以如果你不能直接访问服务器，这可能是不可能的。一些过滤器预装在 Windows 中，但有些过滤器，如 PDF，您必须自己安装。对于 C# 实现，请查看这篇文章:Using IFilter in C#

关于c# - 从pdf和word文件中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3652952/

上一篇：c# - 如何将 XPS 文件中的每一页转换为 C# 中的图像？

下一篇：c# - 在 C# 中强制实现通用接口(interface)

相关文章：

c# - 使用以编程方式创建的设置任务栏覆盖图标

java - 用 Java 编码的 SHA1 从相同的 C# 代码中产生不同的结果

java - 如何使用iText和Java选中具有相同变量名的PDF文件中的复选框

c# - 使用互操作将 Excel 转为 pdf

c# - 给定 UTF-16 大小的最大 UTF-8 字符串大小

c# - 刷新A gridview数据

c# - 如何以编程方式搜索和突出显示 pdf 的关键字

vba - 我们可以使用 vba 通过名称而不是索引来访问单词表吗？

ms-word - pandoc markdown to docx - 将列表保留在一页上

vba - 仅搜索用户选择的文本