更改数据数据类型的拆分后,我已将数据从文本文件加载到Spark RDD。如何在不更改数据类型的情况下进行拆分,或者如何将拆分的数据转换为原始数据类型?
我的代码
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("Movie")
sc = SparkContext(conf = conf)
movies = sc.textFile("file:///SaprkCourse/movie/movies.txt")
data=movies.map(lambda x: x.split(","))
data.collect()
我的输入就像userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
分割完我的完整数据后,更改为字符串类型我需要输出与输入文本文件中的数据类型相同,为
IntegerType, IntegerType, IntegerType, IntegerType
最佳答案
读取文本文件时出现 Spark 会影响所有列的StringType类型,因此,如果要将列视为IntegerType,则需要强制转换它们。
关于apache-spark - 更改数据数据类型拆分后的Spark RDD如何在不更改数据类型的情况下拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64477431/