我需要一个库来从文档(doc、doxc、pdf、html、rtf、odt ......)中提取文本。是否有一个库(适用于所有文档类型)用于此目的?
最佳答案
使用其中一种将文件批量转换为一种格式
odtphp http://www.odtphp.com/index.php?i=tutorials&p=tutorial1
或
PyODConverter(使用 PHP 命令行可执行工具运行它以使其“与”php 一起工作)http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html
然后通过任何通用 pdf2txt 库或 phpOCR 运行最后的结果。
关于PHP,文档阅读库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4683618/