perl - 索引 PDF 文件并生成关键字摘要

标签 perl pdf indexing swish

我的本​​地文件系统中有大量 PDF 文件用作文档库,我想创建这些文件的索引。 我愿意:

  1. 解析 PDF 文件的内容以获取关键字。
  2. 选择最相关的关键字进行摘要。
  3. 为某些关键字创建静态 HTML 页面,其中的条目链接到相应的文件。

我的问题是:

  • 是否有现有工具可以执行整个工作?
  • 解析 PDF 文件内容、过滤(按字数大小)和计算字数的最合适工具是什么?
  • 我考虑使用Perlswish-epdfgrep来制作脚本。您知道其他有用的工具吗?

最佳答案

鉴于第 2 点和第 3 点似乎是自定义的,我建议您拥有自己的脚本,使用其中的工具来解析 pdf,根据需要处理其输出,并编写 HTML(可能使用其他工具)。

Perl 非常适合这一点,因为它擅长处理您需要的数据,并且还通过模块提供对处理各种文件格式的支持。

对于阅读pdf,如果您的需求不太复杂,这里有一些选择

最后两个是外部工具,您可以通过 Perl 的内置工具(例如 system)使用它们。

以下文本处理(用于构建摘要并设计输出)正是 Perl 等语言的用途。提到的几个任务需要几行代码。

然后写出 HTML,如果简单的话可以直接写出来,也可以使用合适的模块。鉴于您的目的,您可能需要查看HTML::Template 。另请参阅this post ,例如。

完全解析 PDF 可能不可行,但如果文件不太复杂,应该可以。

如果您选择关键字和构建统计数据的过程相当常见,则可以使用用于文档管理的集成工具(搜索书目管理器)。但是,我认为大多数人都求助于外部工具来解析 pdf,因此您可能仍然使用自己的脚本更好。

关于perl - 索引 PDF 文件并生成关键字摘要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39027338/

相关文章:

perl - 是否有支持 TLS 的 Perl IMAP 模块?

perl - Perl 集成的推荐 R 接口(interface)是什么?

Perl 排序在数值上无法按预期工作

node.js - 使用 node.js 创建签名 PDF (PAdES)

javascript - 填写 PDF 表格

MySQL 索引 |与 LIKE 一起使用

oracle - 我可以在 Oracle 中拥有可延迟的唯一功能索引吗?

perl - 如何制作/构建更大的 Selenium 测试套件?

pdf - iTextSharp : Convert PdfObject to PdfStream

mysql - 两个字段表(均为 int)是否需要索引?