java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗？

关闭。这个问题是opinion-based 。目前不接受答案。

想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 .

已关闭 6 年前。

我正在使用 hadoop 做一个项目，该项目使用 selenium 从各种 Twitter 帐户收集推文。我不想一个接一个地执行这些操作，而是使用 hadoop 同时执行它们以减少收集时间。这听起来可行吗？它会很好地利用 hadoop 吗？

最佳答案

Twitter 有一个流 API，您可以使用它来获取持续的推文流并将它们加载到 HDFS 并使用任何处理框架(Hive、storm、spark)来理解这些推文。如果您不想使用 twitter API 进行编码，则可以使用打包工具，您可以使用 Apache NiFi 或 Flume 为您获取推文并将其加载到 HDFS。

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.GetTwitter/

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

关于java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40591244/

上一篇：javascript - 向浏览器请求模态以选择证书

下一篇：java - Libgdx某些字体字母不出现

相关文章：

java - BSON 字段名称无效

java - JSTL 到 CSS 文件

selenium - 如何通过 Selenium 脚本获取移动 native 应用程序中元素的页面源？

hadoop - Hadoop 中的节点标签

hadoop - Hive 1.2.1 更新

mysql - sqoop导出到mysql失败

java - PrintWriter与普通打印不同

java - 停止 4 个流的音池的最简单方法是什么

unit-testing - Selenium 等待下载？

java - Selenium Java - 如何外包 @Config 并从外部类调用测试？