python - AWS 上的 Hadoop 流 - 情绪分析示例

标签 python amazon-web-services hadoop amazon-s3 amazon-emr

我正在做 AWS 大数据示例:使用 Hadoop 流和 Python 代码进行情绪分析(链接如下:)

http://blog.newitfarmer.com/anls/analytics-bi/sentiment-analysis-analytics-bi/13436/repost-analyzing-big-data-getting-started-sentiment-analysis

一切正常，“除了”过程失败，因为我无法访问示例的以下 key 文件:

s3://awsdocs/gettingstarted/latest/sentiment/config–nltk.sh

我怀疑问题可能是没有公共(public)读取权限访问这个文件..

有人可以告诉我如何访问这个 shell 脚本文件或如何将它复制到我自己的文件夹中吗？ (我知道 Amazon Machine 实例 unix 复制的语法是 s3cmd put *filename* *copylocation* 但 AMI 的 unix promt 不允许我复制文件)

编辑: 好的，我现在已经走到解决方案的一半了: 虽然我仍然无法访问该文件，但我使用以下命令成功地将文件复制到我自己的文件夹中:

s3cmd cp s3://awsdocs/gettingstarted/latest/sentiment/config-nltk.sh s3://mysentimentjobX/

现在我应该能够将此文件放在我自己的文件夹中，并从我自己的 S3 存储桶运行 Hadoop 流式处理作业。我会告诉你我最后一点是否成功，并告诉你我是怎么做到的(如果我成功了:))

最佳答案

(从 OP 的问题中移出):

It seems the name AWS gave this example script (config–nltk.sh) caused problems by using - rather than _. When I copied the file to my own S3 bucket renamed to use _ then I could run the example without any problem.

关于python - AWS 上的 Hadoop 流 - 情绪分析示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20851513/

上一篇：java - 如何在 HADOOP 运行时生成多个文件名？

下一篇：java - HBase - 无法抑制 fs 关闭 Hook

python - 如何通过连接从数据库查询生成嵌套 JSON？使用 Python/SQLAlchemy

python - 使用 Pandas 自定义显示时间序列数据

python - boto3 : AttributeError: 'EC2' object has no attribute 'create_instances'

hadoop - 节点管理器资源与调度程序资源

hadoop - 如何用 pig latin 压平和减去列

python - 操作错误:(2003， "Can' t 连接到 'mysql2.000webhost.com' (10060) 上的 MySQL 服务器”)

java - AWS SDK 2.x 中是否替换了 SelectObjectContentRequest？

ruby-on-rails - 部署新代码后，如何让 AWS Auto-scaling Group 中的所有实例保持更新？

hadoop - 本地HDFS访问应该更快吗？