scala - HBase Spark - 与 Spark 2.0 的连接

标签 scala apache-spark hbase

一直在尝试使用 Spark 和 Scala 将数据写入 HBase。要求是 - 我必须根据来自业务的列的时间戳为 HBase 记录设置 TTL。

我无法编译我的代码,详情如下。

  1. 为此,我正在使用 HBase Spark Alpha 4 连接器(hbase-spark-2.0.0-alpha4.jar)
  2. 将列的时间戳值转换为 Epoch Timestamp 并尝试根据它设置 TTL。
  3. 当我尝试在 Spark Shell 中执行相同的代码时 - 它是无缝执行的,我能够在 HBase 中看到预期的输出。
  4. 但是当我尝试在 Eclipse 中编译它时 - 它失败并出现以下错误。
[ERROR] error: missing or invalid dependency detected while loading class file 'HBaseContext.class'.    
[INFO] Could not access type Logging in package org.apache.spark,    
[INFO] because it (or its dependencies) are missing.

有人可以提供解决此问题的意见吗?

最佳答案

在我的例子中,我重新编译了连接器:https://github.com/apache/hbase-connectors.git使用基于我的项目的参数。就像:

mvn -Dspark.version=2.2.2 -Dscala.version=2.11.7 -Dscala.binary.version=2.11 clean install

没有错误。

提示:groupId与maven center repo中的groupId不同

关于scala - HBase Spark - 与 Spark 2.0 的连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53408751/

相关文章:

apache-spark - 如何为 Spark 应用程序读取和写入 HDFS 字节?

xml - 在 Scala 中向 XML 文件添加或附加新元素而不是替换它

Scalacheck 尝试 : Monadic Associativity law passes with generated functions

scala - 含糊不清的隐含

scala - Apache Spark : Transforming large DataFrame efficiently

amazon-web-services - 从 Spark 集群上的 S3 读取 Spark 作业会出现 IllegalAccessError : tried to access method MutableCounterLong

apache-spark - 排除CDH对spark-core的依赖

database - 凤凰加入操作不适用于 hbase

hadoop - Apache Hadoop 版本 1.0.3 使用哪些端口进行守护进程的集群内通信

scala - 如何将 Dataframe 列名称与 Scala 案例类属性相匹配?