c# - 从pdf和word文件中提取文本

标签 c# pdf ms-word

如何在 C# 中从 pdf 或 word 文件中提取文本(删除粗体、图像和其他富文本格式媒体)?

最佳答案

您可以使用为索引服务设计/使用的过滤器。它们旨在从各种文档中提取纯文本,这对于在文档中搜索很有用。您可以将它用于 Office 文件、PDF、HTML 等,基本上任何具有过滤器的文件类型。唯一的缺点是你必须在服务器上安装这些过滤器,所以如果你不能直接访问服务器,这可能是不可能的。一些过滤器预装在 Windows 中,但有些过滤器,如 PDF,您必须自己安装。对于 C# 实现,请查看这篇文章:Using IFilter in C#

关于c# - 从pdf和word文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3652952/

相关文章:

c# - 使用以编程方式创建的设置任务栏覆盖图标

java - 用 Java 编码的 SHA1 从相同的 C# 代码中产生不同的结果

java - 如何使用iText和Java选中具有相同变量名的PDF文件中的复选框

c# - 使用互操作将 Excel 转为 pdf

c# - 给定 UTF-16 大小的最大 UTF-8 字符串大小

c# - 刷新A gridview数据

c# - 如何以编程方式搜索和突出显示 pdf 的关键字

vba - 我们可以使用 vba 通过名称而不是索引来访问单词表吗?

ms-word - pandoc markdown to docx - 将列表保留在一页上

vba - 仅搜索用户选择的文本