apache-spark - 更改数据数据类型拆分后的Spark RDD如何在不更改数据类型的情况下拆分

更改数据数据类型的拆分后，我已将数据从文本文件加载到Spark RDD。如何在不更改数据类型的情况下进行拆分，或者如何将拆分的数据转换为原始数据类型？
我的代码

from pyspark import SparkConf, SparkContext 
conf = SparkConf().setMaster("local").setAppName("Movie") 
sc = SparkContext(conf = conf) 
movies = sc.textFile("file:///SaprkCourse/movie/movies.txt")
data=movies.map(lambda x: x.split(","))
data.collect()

我的输入就像

userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931

分割完我的完整数据后，更改为字符串类型

我需要输出与输入文本文件中的数据类型相同，为IntegerType, IntegerType, IntegerType, IntegerType

最佳答案

读取文本文件时出现 Spark 会影响所有列的StringType类型，因此，如果要将列视为IntegerType，则需要强制转换它们。

关于apache-spark - 更改数据数据类型拆分后的Spark RDD如何在不更改数据类型的情况下拆分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64477431/

上一篇：docker - docker-compose:链接选项不起作用

下一篇：hadoop - 可以禁用 WebHDFS UI 删除功能吗？

相关文章：

java - 当函数Spark Java API时内部或运算符

apache-spark - 任务的序列化结果的总大小大于spark.driver.maxResultSize

python - Hadoop 集群 - 在运行作业之前，我是否需要在所有机器上复制我的代码？

hadoop - 无法在Hadoop 3.2.1上执行hadoop jar命令:连接异常失败:java.net.ConnectException:连接被拒绝；

python - Databricks 连接测试在 "The system cannot find the path specified."上无限期挂起

apache-spark - Pyspark 和 PCA : How can I extract the eigenvectors of this PCA? 如何计算它们解释的方差？

linux - 如何从命令行检查 Spark 配置？

apache-spark - 如何在pyspark中为 token 特征数组维护单词到索引映射的顺序？

hadoop - 在Hadoop中使用CombineFileInputFormat

pyspark - 计算从列表 pyspark 引用的列的乘积