如何从文档中获取纯字符串,消除所有图像或表格或图形。我将操纵并创建这些文档的单词列表。所以我只需要使用 C# 的文档的文本部分
最佳答案
您可能需要查看 IFilters .它们是大多数搜索索引器从 Windows 上的文档访问纯文本的方式。 Here's a tutorial and sample project带有源代码,您可以使用它从 Office 文档和 PDF 等中提取文本。
您只需确保您的计算机上安装了正确的 IFilter。微软提供a free set of filters for Office Documents . Adobe还提供了一个过滤器,但它完全是垃圾。如果可以,请尝试 FoxIt IFilter , 好多了。
关于c# - 使用c#从文档中获取纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4259398/