csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等

标签 csv hadoop delimiter hue

我正在尝试上传我在 Kaggle.com/datasets 上找到的一个有趣的数据集,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是在此处找到的文件“Questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions)到Cloudera 的 Hue 让我可以使用 Hive 来查询数据。

但是,我在选择分隔符以正确上传 .csv 时遇到了问题。我没有看到选择文本限定符、转义字符等的地方。

我在从以下位置下载的 Oracle VirtualBox VM Linux 机器上:https://www.virtualbox.org/wiki/Downloads

我正在使用 Hadoop 的 Cloudera 发行版来访问 Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我专门在 Hue 上使用 Metastore Manager 来尝试上传 Questions.csv 数据文件。

如能提供任何有关上传/导入 .csv 的帮助,我们将不胜感激。

最佳答案

你可以先用这种参数创建一个表:

CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable 中有关 Hive 表创建的更多详细信息

然后,您必须将 csv 文件上传到 hdfs 文件夹中并使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
 OVERWRITE INTO TABLE databaseXX.tableXX;

我发现这是使用 Hue 将 csv 文件转换为表格的最简单方法。

关于csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43312069/

相关文章:

hadoop - 如何更改每个作业的 io.sort.mb?

postgresql - 将 CSV 数据加载到 PostgreSQL 表

r - R 中的字符串聚类(可能吗?)

mysql - 将大型 csv 导入规范化关系数据库(具有多个表)的最佳实践是什么

sql-server - SSIS重命名文件,文件扩展名出现在正确的位置

hadoop - 如何从 hdfs 路径中剥离主机信息

hadoop - Spring 数据 - hadoop 连接

r - 分隔符为空格且缺失值为空时如何读取?

python - 将列表添加到 DF/将字符串扩展为新列和数据

java - Android Scanner 读到一个分隔符 (UseLimiter)