Php - 上传 doc、docx、pdf - 提取所有内容

标签 php pdf extract docx doc

<分区>

  • 上传文件时有没有办法进行OCR?

  • 我们可以索引整个文档吗?

  • 搜索引擎可以索引整个文档吗?即使用户需要付费才能查看完整文档?

  • 能否将文档显示为预览,只有所选摘录可见,而其余部分模糊不清,文档格式仍然可见?

我一直在尝试使用简单的 php 函数或一些看起来不像火箭科学来完成的东西来找到这些问题的简单解决方案。但无论我在哪里,我都能看到人们在谈论 ApachePOI 和 Solr Cell 以及所有这些我不知道的服务器命令。对于最后一个问题,我只能弄清楚我们可以使用 PHPGD 并生成内容模糊的图像,但是如果文档中有格式化的文本、图像和表格等,我不确定如何让它工作。

因此,如果有人有简单的解决方案,或者甚至是复杂的解决方案但有简单的说明,这些都可以。诸如“新手的 php 文档内容提取”之类的东西,将从它的 a-b-c 开始。

提前致谢!

最佳答案

Zend_Search_Lucene 包含一些读取 docx 文件的代码,它将单独在 PHP 中运行。

对于 PDF 和 doc,您可以使用命令行实用程序来提取纯文本内容,例如 catdoc 或 pdftotext。如果你四处搜索,你可以找到适用于大多数文件格式的实用程序。它们通常被大多数发行版打包。

从原始文本格式,您可以将其提供给任何全文搜索引擎。

关于Php - 上传 doc、docx、pdf - 提取所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9049113/

相关文章:

php - 如何检查数组中的哪些值在 MySQL 中?

curl - 从 Php 或 cURL 获取的网页上的链接中提取 URL 和 anchor 文本

python - 在正则表达式中查找带有大写字母并以特定单词结尾的字符串

允许转换为 sql 的 PHP 规范模式

javascript - 在 ajax 响应上解析 html 元素

php - curl CURLOPT_RETURNTRANSFER 没有按预期工作?

c# - 读取 PDF 文档作为指定要呈现的 PDF 的一部分

android - 在应用程序中打开 Assets 文件 pdf

jquery - 以 HTML 格式生成 PDF 文件的缩略图

python - 用于从 < 和 > 内部提取文本字符串的正则表达式 (Python) - 例如<stringone><string-two> 等