apache-spark - 如何在Spark SQL中为表添加增量列ID

标签 apache-spark apache-spark-sql spark-dataframe apache-spark-mllib

我正在研究Spark mllib算法。我拥有的数据集是这种形式

公司”:“XXXX”，“CurrentTitle”:“XYZ”，“Edu_Title”:“ABC”，“Exp_mnth”:。(还有更多与之相似的值)

我试图将字符串值原始编码为数字值。因此，我尝试使用zipwithuniqueID作为每个字符串值的唯一值。由于某种原因，我无法将修改后的数据集保存到磁盘上。我可以使用spark SQL以任何方式执行此操作吗？或哪种更好的方法呢？

最佳答案

Scala

val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())

Java

 Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());

关于apache-spark - 如何在Spark SQL中为表添加增量列ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38377101/

上一篇：r - 如何在Rselenium中单击网页中的链接？

下一篇：vulkan - 多线程渲染与命令池

python - 如何使用pyspark创建包含大量列和日期数据的数据框？

scala - 如何比较多行？

python - Spark DataFrame 中向量的访问元素(逻辑回归概率向量)

scala - 如何从每一行的列中提取特定元素？

apache-spark - 如何从Apache Spark的数据框中选择大小相同的分层样本？

python - Spark RDD - 使用额外参数进行映射

apache-spark - Spark Parallelize(List(1,2,3,4),2) 总是按顺序对列表进行分区？

apache-spark-sql - 如何使用scala api在spark sql中编写不同的查询？

python - 如何将 PySpark 数据帧的每个非字符串列与浮点常量相除或相乘？