scala - Spark scala Dataframe isin

标签 scala apache-spark dataframe

我有一个包含 Array[Byte] 的 Spark Dataframe。我可以使用 isin 将数据与我的 Array[Byte] 进行匹配吗?如果我尝试像这样使用它:

clientIp.isin((whitelist:_*))

它不匹配,因为whitelist:_* 未将字节数组正确格式化为IN(...)。知道如何解决这个问题吗?

最佳答案

您可以转换Array[Byte]到 Java String ,那么你可以将其与 isin(whitelist:_*) 相匹配如果您的白名单List<String>

根据文档,isin方法接受 java.lang.object 或 Seq(java.lang.object)

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/Column.html#isin(scala.collection.Seq)

关于scala - Spark scala Dataframe isin,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40378510/

相关文章:

java - 在 Spark 中,是否可以在两个执行者之间共享数据?

python - pyspark 错误 : AttributeError: 'SparkSession' object has no attribute 'parallelize'

apache-spark - UserWarning : pyarrow. open_stream 已弃用,请使用 pyarrow.ipc.open_stream 警告

json - Scala Circe。编码器类型 任意

scala - java.lang.ClassNotFoundException : play. core.server.NettyServer 当更多 Play 库添加到 build.sbt 时

python - 使用 Numpy 数组更新 Pandas 数据框中的部分列

python - 使用字符串列表按列标签对 Pandas DataFrame 进行切片

python - 如何在 PySpark 中查找 DataFrame 的大小或形状?

scala - 当涉及特征时,Mockito 会忽略我的 Specs2 加糖验证步骤

scala - 将字符串格式设置为带有两位小数的浮点型