apache-spark - 更改数据数据类型拆分后的Spark RDD如何在不更改数据类型的情况下拆分

标签 apache-spark hadoop pyspark

更改数据数据类型的拆分后,我已将数据从文本文件加载到Spark RDD。如何在不更改数据类型的情况下进行拆分,或者如何将拆分的数据转换为原始数据类型?
我的代码

from pyspark import SparkConf, SparkContext 
conf = SparkConf().setMaster("local").setAppName("Movie") 
sc = SparkContext(conf = conf) 
movies = sc.textFile("file:///SaprkCourse/movie/movies.txt")
data=movies.map(lambda x: x.split(","))
data.collect()
我的输入就像
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
分割完我的完整数据后,更改为字符串类型
enter image description here
我需要输出与输入文本文件中的数据类型相同,为IntegerType, IntegerType, IntegerType, IntegerType

最佳答案

读取文本文件时出现 Spark 会影响所有列的StringType类型,因此,如果要将列视为IntegerType,则需要强制转换它们。

关于apache-spark - 更改数据数据类型拆分后的Spark RDD如何在不更改数据类型的情况下拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64477431/

相关文章:

java - 当函数Spark Java API时内部或运算符

apache-spark - 任务的序列化结果的总大小大于spark.driver.maxResultSize

python - Hadoop 集群 - 在运行作业之前,我是否需要在所有机器上复制我的代码?

hadoop - 无法在Hadoop 3.2.1上执行hadoop jar命令:连接异常失败:java.net.ConnectException:连接被拒绝;

python - Databricks 连接测试在 "The system cannot find the path specified."上无限期挂起

apache-spark - Pyspark 和 PCA : How can I extract the eigenvectors of this PCA? 如何计算它们解释的方差?

linux - 如何从命令行检查 Spark 配置?

apache-spark - 如何在pyspark中为 token 特征数组维护单词到索引映射的顺序?

hadoop - 在Hadoop中使用CombineFileInputFormat

pyspark - 计算从列表 pyspark 引用的列的乘积