apache-spark - 如何在Spark SQL中为表添加增量列ID

标签 apache-spark apache-spark-sql spark-dataframe apache-spark-mllib

我正在研究Spark mllib算法。我拥有的数据集是这种形式

公司”:“XXXX”,“CurrentTitle”:“XYZ”,“Edu_Title”:“ABC”,“Exp_mnth”:。(还有更多与之相似的值)

我试图将字符串值原始编码为数字值。因此,我尝试使用zipwithuniqueID作为每个字符串值的唯一值。由于某种原因,我无法将修改后的数据集保存到磁盘上。我可以使用spark SQL以任何方式执行此操作吗?或哪种更好的方法呢?

最佳答案

Scala

val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())

Java
 Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());

关于apache-spark - 如何在Spark SQL中为表添加增量列ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38377101/

相关文章:

algorithm - 将前 10% 的未排序 RDD 作为 Spark 中的另一个 RDD 返回的有效方法?

python - 如何使用pyspark创建包含大量列和日期数据的数据框?

scala - 如何比较多行?

python - Spark DataFrame 中向量的访问元素(逻辑回归概率向量)

scala - 如何从每一行的列中提取特定元素?

apache-spark - 如何从Apache Spark的数据框中选择大小相同的分层样本?

python - Spark RDD - 使用额外参数进行映射

apache-spark - Spark Parallelize(List(1,2,3,4),2) 总是按顺序对列表进行分区?

apache-spark-sql - 如何使用scala api在spark sql中编写不同的查询?

python - 如何将 PySpark 数据帧的每个非字符串列与浮点常量相除或相乘?