java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗?

标签 java selenium hadoop

我正在使用 hadoop 做一个项目,该项目使用 selenium 从各种 Twitter 帐户收集推文。我不想一个接一个地执行这些操作,而是使用 hadoop 同时执行它们以减少收集时间。这听起来可行吗?它会很好地利用 hadoop 吗?

最佳答案

Twitter 有一个流 API,您可以使用它来获取持续的推文流并将它们加载到 HDFS 并使用任何处理框架(Hive、storm、spark)来理解这些推文。如果您不想使用 twitter API 进行编码,则可以使用打包工具,您可以使用 Apache NiFi 或 Flume 为您获取推文并将其加载到 HDFS。

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.GetTwitter/

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

关于java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40591244/

相关文章:

java - BSON 字段名称无效

java - JSTL 到 CSS 文件

selenium - 如何通过 Selenium 脚本获取移动 native 应用程序中元素的页面源?

hadoop - Hadoop 中的节点标签

hadoop - Hive 1.2.1 更新

mysql - sqoop导出到mysql失败

java - PrintWriter与普通打印不同

java - 停止 4 个流的音池的最简单方法是什么

unit-testing - Selenium 等待下载?

java - Selenium Java - 如何外包 @Config 并从外部类调用测试?