php - 如何将 pdf、ppt、xl、doc 文件转换为 txt/html 文件... php/python/perl 中的任何开源工具/代码可用?

标签 php file lucene format

我的最终目标是使用 lucene 索引文档。由于 lucene 不支持索引其他格式。我想将这些文件转换为 txt/html(lucene 可索引文件类型)。
我有一套文件 ppt、pdf、doc、xl 等近 1000 个文件
请帮我

最佳答案

您可以使用 OpenOffice headless 将文件从一种格式转换为另一种格式,例如将 Excel/Doc 转换为 TXT/HTML。

我们使用与 ImageMagick 相结合的类似过程来允许人们将办公文档上传到演示应用程序中。

以下是有关如何实现此目的的一些示例/教程:

设置 OpenOffice

http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter

JOD转换器 ( java )

http://artofsolving.com/opensource/jodconverter

PyOD转换器 (Python)

http://artofsolving.com/opensource/pyodconverter

如果您需要有关 OOo 的任何进一步帮助,请随时询问

祝你好运 :)

关于php - 如何将 pdf、ppt、xl、doc 文件转换为 txt/html 文件... php/python/perl 中的任何开源工具/代码可用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2635513/

相关文章:

php - 我如何定制 Zend_Tool 以提供我自己的框架/模板?

php - 负载平衡 Web 服务器上的 Cron 任务

java - 解密java中在php中使用AES加密的字符串

javascript - 从 PHP 中的地址形成发件人地址

java - 在文件内排序

c - 如何设置数组进行行解析

file - 来自 ByteArray/Stream 的 TagLib-sharp 文件

java - 尝试检索特定路径下的文件夹/文件的 CMIS 查询不返回任何文档

php - 索引时,当整数字段类型留空时,Solr 返回 400 Status Bad Request

lucene - lucene批量更新策略?