hadoop - 如何在 Hadoop 中访问和操作 pdf 文件的数据？

标签 hadoop hadoop-streaming hadoop-plugins hadoopy

我想用hadoop读取PDF文件，怎么可能？我只知道hadoop只能处理txt文件，所以有没有把pdf文件解析成txt的。

给我一些建议。

最佳答案

一个简单的方法是创建一个 SequenceFile包含 PDF 文件。 SequenceFile 是一种二进制文件格式。您可以将 SequenceFile 中的每条记录都制作成 PDF。为此，您将创建一个派生自 Writable 的类。其中将包含 PDF 和您需要的任何元数据。然后您可以使用任何 Java PDF 库，例如 PDFBox操作 PDF。

关于hadoop - 如何在 Hadoop 中访问和操作 pdf 文件的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9290119/

上一篇：apache - 使用 APACHE Web 服务器、Linux CentOS 访问 HDFS HADOOP

下一篇：hadoop - 在 Hadoop 中如何处理每天增加的数据

相关文章：

java - 在hadoop中reduce后处理数据

hadoop - Hadoop流任务失败

Hadoop 安全

hadoop - 远程使用 Hadoop 集群

hadoop - 在APACHE SQOOP中如何查找最大值和最小值

shell - 如何获取更新的记录以及从 RDBMS 表到 Hive 表的增量导入？

hadoop - 关闭namenode hadoop集群

hadoop - 使用 Hadoop 流处理 gzip 文件

hadoop - 配置单元失败 : ParseException line 2:0 cannot recognize input near '' macaddress '' ' CHAR' '(' in column specification