apache-spark - PHOENIX SPARK - 用于 BulkLoad 的 DataFrame

标签 apache-spark dataframe apache-phoenix

作为 Spark 作业的结果,我有 1 亿条记录需要插入到 HBase 表 (PHOENIX) 中。我想知道如果我将其转换为 Dataframe 并保存它,它会进行批量加载(或者)这不是将数据写入 Phoenix HBase 表的有效方法

最佳答案

发件人:乔什·马霍宁

日期:2016 年 5 月 18 日星期三晚上 10:29

主题:回复:PHOENIX SPARK - 用于 BulkLoad 的 DataFrame

致:[email protected]

嗨,

Spark 集成使用 Phoenix MapReduce 框架,该框架在幕后将这些框架转换为分布在多个工作线程中的 UPSERT。

您应该尝试这两种方法,看看哪种方法最适合您的用例。无论如何,我们通常使用 Spark 集成对这些数据大小执行加载/保存操作。

关于apache-spark - PHOENIX SPARK - 用于 BulkLoad 的 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37291091/

相关文章:

r - 如何在数据框中按名称删除列

python - Pandas to_datetime 不适用于空值

scala - 从 `org.apache.spark.sql.Row` 中提取信息

apache-spark - co-located vs. co-partitioned RDD

java - Spark Driver 内存和 Executor 内存

hbase - 从 Phoenix 获取 HBase 的行数不一致

mysql - 使用 Mapping 连接两个表并获得结果

scala - 如何在 EMR 上使用 spark 有效地读取/解析 s3 文件夹中的 .gz 文件负载

r - 删除 | 之后的所有数据在数据栏中

java - 通过 Phoenix 连接到 Test Hbase 表