我正在尝试上传我在 Kaggle.com/datasets 上找到的一个有趣的数据集,该数据集包含在一个名为“来自交叉验证堆栈交换的问题”的文件夹中(特别是在此处找到的文件“Questions.csv”:https://www.kaggle.com/stackoverflow/statsquestions)到Cloudera 的 Hue 让我可以使用 Hive 来查询数据。
但是,我在选择分隔符以正确上传 .csv 时遇到了问题。我没有看到选择文本限定符、转义字符等的地方。
我在从以下位置下载的 Oracle VirtualBox VM Linux 机器上:https://www.virtualbox.org/wiki/Downloads
我正在使用 Hadoop 的 Cloudera 发行版来访问 Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我专门在 Hue 上使用 Metastore Manager 来尝试上传 Questions.csv 数据文件。
如能提供任何有关上传/导入 .csv 的帮助,我们将不胜感激。
最佳答案
你可以先用这种参数创建一个表:
CREATE TABLE databaseXX.tableXX (column1 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable 中有关 Hive 表创建的更多详细信息
然后,您必须将 csv 文件上传到 hdfs 文件夹中并使用:
LOAD DATA INPATH '/tmp/myCsvFile'
OVERWRITE INTO TABLE databaseXX.tableXX;
我发现这是使用 Hue 将 csv 文件转换为表格的最简单方法。
关于csv - 在 Hue 中上传/导入 .csv - 指定正确的分隔符等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43312069/