hadoop - 如何从 pyspark 连接到 Teradata?

标签 hadoop apache-spark pyspark teradata spark-dataframe

我正在尝试从 Pyspark 连接到 Teradata 和 DB2。

我正在使用以下 jar :

tdgssconfig-15.10.00.14.jar
teradata-connector-1.4.1.jar
terajdbc4-15.10.00.14.jar & db2jcc4.jar

连接字符串:

df1 = sqlContext.load(source="jdbc", driver="com.teradata.jdbc.TeraDriver", url=db_url,user="db_user",TMODE="TERA",password="db_pwd",dbtable="U114473.EMPLOYEE")

df = sqlContext.read.format('jdbc').options(url='jdbc:db2://10.123.321.9:50000/DB599641',user='******',password='*****',driver='com.ibm.db2.jcc.DB2Driver', dbtable='DSN1.EMPLOYEE')

两者都给我 Driver not found 错误。

我们可以为 pyspark 使用 JDBC 驱动程序吗?

最佳答案

正如 James Tobin 所说,在启动 pyspark sessioni 或将 py 提交到 spark 时使用 pyspark2 --jars/jarpath 选项

关于hadoop - 如何从 pyspark 连接到 Teradata?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40221832/

相关文章:

hadoop - HDFS 与 HIVE 分区

java - 如何在配置单元表中插入和检索十进制值

csv - 我们可以在 hive (Hadoop工具)中合并.CSV文件和.RAR文件吗?

apache-spark - Spark : RDD Left Outer Join Optimization for Duplicate Keys

python - 如何在 PySpark 中创建 merge_asof 功能?

hadoop - 像Hive一样分区在Pig中

python - Spark-submit 导入 SparkContext 失败

sql - 如何在Spark SQL查询中定义WINDOWING函数以避免重复代码

python - Spark DataFrameWriter 使用 TIMESTAMP 而不是 DATETIME

apache-spark - 我的 SparkSession 初始化需要很长时间才能在我的笔记本电脑上运行。有人知道为什么吗?