我的最终目标是使用 lucene 索引文档。由于 lucene 不支持索引其他格式。我想将这些文件转换为 txt/html(lucene 可索引文件类型)。
我有一套文件 ppt、pdf、doc、xl 等近 1000 个文件
请帮我
最佳答案
您可以使用 OpenOffice headless 将文件从一种格式转换为另一种格式,例如将 Excel/Doc 转换为 TXT/HTML。
我们使用与 ImageMagick 相结合的类似过程来允许人们将办公文档上传到演示应用程序中。
以下是有关如何实现此目的的一些示例/教程:
设置 OpenOffice
http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter
JOD转换器 ( java )
http://artofsolving.com/opensource/jodconverter
PyOD转换器 (Python)
http://artofsolving.com/opensource/pyodconverter
如果您需要有关 OOo 的任何进一步帮助,请随时询问
祝你好运 :)
关于php - 如何将 pdf、ppt、xl、doc 文件转换为 txt/html 文件... php/python/perl 中的任何开源工具/代码可用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2635513/