我正在使用 hadoop 做一个项目,该项目使用 selenium 从各种 Twitter 帐户收集推文。我不想一个接一个地执行这些操作,而是使用 hadoop 同时执行它们以减少收集时间。这听起来可行吗?它会很好地利用 hadoop 吗?
最佳答案
Twitter 有一个流 API,您可以使用它来获取持续的推文流并将它们加载到 HDFS 并使用任何处理框架(Hive、storm、spark)来理解这些推文。如果您不想使用 twitter API 进行编码,则可以使用打包工具,您可以使用 Apache NiFi 或 Flume 为您获取推文并将其加载到 HDFS。
https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.GetTwitter/
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
关于java - 在 MapReduce 作业中使用 selenium 对 Hadoop 有好处吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40591244/