用于从 Open XML 文件格式中提取纯文本的 ASP.NET 库

标签 asp.net lucene.net openxml

是否有预先存在的库来提取纯文本形式的 Open XML 文件格式(例如 docx、pptx 和 xlsx)文件？

我需要它来填充 lucene.net 索引。

我找到了这个 example which extracts text from docx它似乎工作正常。但是在基于此构建我自己的解决方案之前，我想知道是否有其他文件格式可用的东西？

最佳答案

在花钱之前，可能值得查看 IFilter 界面 - 这些界面/旨在完全满足您的需求。

http://msdn.microsoft.com/en-us/library/ms691105

http://www.codeproject.com/KB/cs/IFilter.aspx

(代码项目链接底部的一些链接)。

MS 为办公文件类型提供 IFilter。
http://www.microsoft.com/downloads/details.aspx?familyid=60c92a37-719c-4077-b5c6-cac34f4227cc&displaylang=en

我知道我们使用这项技术允许我们使用 Lucene 索引 PDF，但我没有编写实际的代码，恐怕没有多大用处。

如果你的 Google-fu 很强大，我相信你可以挖掘更多使用 IFilters 来做你想做的事的例子。

关于用于从 Open XML 文件格式中提取纯文本的 ASP.NET 库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2778272/

上一篇：naming-conventions - 'service' 和 'server' 有什么区别？

下一篇：Django 找不到我的模板标签，即使它在 INSTALLED_APPS 中并且有一个 init.py

c# - OpenXML 替换 word 文档的特定 customxml 部分

asp.net - 报告计算时间下的 Visual Studio 诊断工具

c#-4.0 - 如何在 Lucene.Net 3 中提升字段

asp.net - 单元测试 ASP.NET 应用程序

c# - 哪个Lucene SearchAnalyzer用于特殊字符搜索

search-engine - Lucene.NET 性能

python - 如何以编程方式将注释插入 Microsoft Word 文档？

asp.net - 如何使用 C# 在自定义验证器中包含正则表达式

c# - 如何在移动浏览器中使用 window.onscroll

用于从 Open XML 文件格式中提取纯文本的 ASP.NET 库

上一篇：naming-conventions - 'service' 和 'server' 有什么区别？

下一篇：Django 找不到我的模板标签，即使它在 INSTALLED_APPS 中并且有一个 __init__.py

下一篇：Django 找不到我的模板标签，即使它在 INSTALLED_APPS 中并且有一个 init.py