java - 如何使用 hadoop 按列读取 CSV 文件？

我正在尝试读取一个不包含逗号分隔值的 csv 文件，这些是纳斯达克股票的列，我想读取一个特定的列，假设(第 3 次)，不知道如何获取列项目。有什么方法可以读取 hadoop 中的列数据吗？请在这里帮忙。

我的 CSV 文件格式是:

exchange    stock_symbol    date    stock_price_open    stock_price_high    stock_price_low stock_price_close   stock_volume    stock_price_adj_close
NASDAQ  ABXA    12/9/2009   2.55    2.77    2.5 2.67    158500  2.67
NASDAQ  ABXA    12/8/2009   2.71    2.74    2.52    2.55    131700  2.55

在这里编辑:

A 列:交换 B 列:stock_symbol C 列:日期 D 列:stock_price_open E 列:stock_price_high

类似的。

这些是列而不是逗号分隔值。我需要按列阅读此文件。

最佳答案

在Pig它看起来像这样:

Q1 = LOAD 'file.csv' USING PigStorage('\t') AS (exchange, stock_symbol, stock_date:double, stock_price_open, stock_price_high, stock_price_low, stock_price_close, stock_volume, stock_price_adj_close);
Q2 = FOREACH Q1 GENERATE stock_date;
DUMP C;

关于java - 如何使用 hadoop 按列读取 CSV 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22400137/

上一篇：hadoop - 如何使用 Pig 脚本生成嵌套的 Avro 字段？

下一篇：hadoop - Pig 0.11.0 在应用 DISTINCT 之前不排序

java - 在 hadoop 的提示符下创建和运行可运行的 jar

java - 我可以减少代码重复，而不过度降低效率或引入开销吗？

python - 使用 Pandas 将列表附加到 csv 中的特定列

iphone - 将 CSV 加载到 Core Data 托管的 sqlite 数据库中

hadoop - PartitionBy删除PySpark中的特殊字符

Java 可视化/图表库，如 Google Charts/Visualisation

python - 使用 python pandas 迭代日期范围

java - 写入相同数据量的多个文件与写入相同数据量的单个大文件

java - Apache Hadoop API 以原子方式创建唯一目录