r - 如何制作 1 亿条推文的 R tm 语料库?

标签 r hadoop amazon-ec2 hive tm

我想使用 R 的分布式计算 tm 包(称为 tm.plugin.dc)制作一个包含 1 亿条推文的文本语料库。这些推文存储在我笔记本电脑上的一个大型 MySQL 表中。我的笔记本电脑很旧,所以我使用的是在 Amazon EC2 上设置的 Hadoop 集群。

tm.plugin.dc documentation from CRAN表示目前仅支持 DirSource。该文档似乎表明 DirSource 每个文件只允许一个文档。我需要语料库将每条推文视为文档。我有 1 亿条推文——这是否意味着我需要在我的旧笔记本电脑上制作 1 亿个文件?这似乎过分了。有没有更好的办法?

到目前为止我尝试了什么:

  1. 将 MySQL 表的文件转储为单个(大量).sql 文件。将文件上传到 S3。将文件从 S3 传输到集群。使用 Cloudera 的 Sqoop 工具将文件导入 Hive。怎么办?我不知道如何让 DirSource 与 Hive 一起工作。

  2. 在我的笔记本电脑上将每条推文制作成 XML 文件。但是怎么办?我的电脑很旧,不能很好地完成这项工作。 ... 如果我能克服这个问题,那么我会:将所有 1 亿个 XML 文件上传到 Amazon S3 中的一个文件夹。将 S3 文件夹复制到 Hadoop 集群。将 DirSource 指向该文件夹。

最佳答案

制作一个包含 1 亿条推文的巨大 HDFS 文件,然后使用标准 R' tm 包处理它们不是更容易和更合理吗?

在我看来,这种方法更自然,因为 HDFS 是为大文件和分布式环境开发的,而 R 是出色的分析工具,但没有并行性(或受限)。您的方法看起来像是将工具用于并非为...开发的东西......

关于r - 如何制作 1 亿条推文的 R tm 语料库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16388495/

相关文章:

hadoop - hadoop 的分布式替代品

apache-spark - 有没有办法在Java Spark 2.1中进行广播联接

r - 使用累积连接将嵌套列表转换为非嵌套列表

r - 将列表文件取消列出到多个数据帧

r - OpenCPU:没有方法 asJSON S3 类

amazon-ec2 - 自动缩放 EC2 或其他云计算基础设施的实际限制是什么?

mysql - 将 Django 项目链接到 EC2 实例中的现有 MySQL 数据库

r - 根据字符串值汇总数据框

hadoop - 我们如何使用Reducers将结果数据直接插入到外部RDBMS中。您必须确保做什么?以及为什么

amazon-web-services - 如何将 docker 容器镜像更新从 AWS ECR 部署到 ECS?