c# - 使用c#从文档中获取纯文本

标签 c# readfile

如何从文档中获取纯字符串,消除所有图像或表格或图形。我将操纵并创建这些文档的单词列表。所以我只需要使用 C# 的文档的文本部分

最佳答案

您可能需要查看 IFilters .它们是大多数搜索索引器从 Windows 上的文档访问纯文本的方式。 Here's a tutorial and sample project带有源代码,您可以使用它从 Office 文档和 PDF 等中提取文本。

您只需确保您的计算机上安装了正确的 IFilter。微软提供a free set of filters for Office Documents . Adobe还提供了一个过滤器,但它完全是垃圾。如果可以,请尝试 FoxIt IFilter , 好多了。

关于c# - 使用c#从文档中获取纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4259398/

相关文章:

C# - 帮助自定义 DatagridView 单元格选项

c# - 对 DataTable 字符串列进行排序,但底部为空/空

c# - C#改变颜色透明度的方法

php - 读取因空格而失败

python - 将 block 填充满 - 在 python 中读取文件

c# - C#从字符串中提取数字

c# - 是否可以两次使用占位符字符串?

Fortran 读取混合文本和数字

python - 在python中读取文件

C++文件读取错误