perl - 索引 PDF 文件并生成关键字摘要

我的本地文件系统中有大量 PDF 文件用作文档库，我想创建这些文件的索引。我愿意:

我的问题是:

最佳答案

鉴于第 2 点和第 3 点似乎是自定义的，我建议您拥有自己的脚本，使用其中的工具来解析 pdf，根据需要处理其输出，并编写 HTML(可能使用其他工具)。

Perl 非常适合这一点，因为它擅长处理您需要的数据，并且还通过模块提供对处理各种文件格式的支持。

对于阅读pdf，如果您的需求不太复杂，这里有一些选择

最后两个是外部工具，您可以通过 Perl 的内置工具(例如 system)使用它们。

以下文本处理(用于构建摘要并设计输出)正是 Perl 等语言的用途。提到的几个任务需要几行代码。

然后写出 HTML，如果简单的话可以直接写出来，也可以使用合适的模块。鉴于您的目的，您可能需要查看HTML::Template 。另请参阅this post ，例如。

完全解析 PDF 可能不可行，但如果文件不太复杂，应该可以。

如果您选择关键字和构建统计数据的过程相当常见，则可以使用用于文档管理的集成工具(搜索书目管理器)。但是，我认为大多数人都求助于外部工具来解析 pdf，因此您可能仍然使用自己的脚本更好。

关于perl - 索引 PDF 文件并生成关键字摘要，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39027338/