python - spark.read.option() 中的可用选项

标签 python python-3.x apache-spark

当我阅读其他人的python代码时,例如,spark.read.option("mergeSchema", "true") ,看来编码器已经知道要使用什么参数了。但是对于初学者来说,有没有地方可以查找这些可用参数?我查找 a​​pche 文档,它显示参数未记录。

谢谢。

最佳答案

令人讨厌的是,option 的文档方法在 json 的文档中方法。该方法的文档说选项如下(键 - 值 - 描述):

  • primitivesAsString -- true/false (default false) -- 将所有原始值推断为字符串类型
  • prefersDecimal -- true/false (默认 false) -- 将所有浮点值推断为十进制类型。如果这些值不适合十进制,那么它会将它们推断为 double 值。
  • allowComments -- true/false (默认 false) -- 忽略 JSON 记录中的 Java/C++ 样式注释
  • allowUnquotedFieldNames -- true/false (default false) -- 允许不带引号的 JSON 字段名称
  • allowSingleQuotes -- true/false (default true) -- 除了双引号外还允许单引号
  • allowNumericLeadingZeros -- true/false (default false) -- 允许数字前导零(例如 00012)
  • allowBackslashEscapingAnyCharacter -- true/false (default false) -- 允许使用反斜杠引用机制接受所有字符的引用
  • allowUnquotedControlChars -- true/false (默认 false) -- 允许 JSON 字符串包含或不包含未引用的控制字符(值小于 32 的 ASCII 字符,包括制表符和换行符)。
  • mode -- PERMISSIVE/DROPMALFORMED/FAILFAST (默认 PERMISSIVE) -- 允许在解析过程中处理损坏记录的模式。
  • PERMISSIVE :当遇到损坏的记录时,将格式错误的记录放入
    字符串到由 columnNameOfCorruptRecord 配置的字段中,并设置
    其他字段为空。为了保留损坏的记录,用户可以设置一个
    用户定义的名为 columnNameOfCorruptRecord 的字符串类型字段
    架构。如果模式没有该字段,则会丢弃损坏的记录
    在解析过程中。在推断模式时,它隐式地添加了一个
    输出模式中的 columnNameOfCorruptRecord 字段。
  • DROPMALFORMED :忽略整个损坏的记录。
  • FAILFAST :遇到损坏的记录时抛出异常。

  • 关于python - spark.read.option() 中的可用选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52472993/

    相关文章:

    python - 不可能创建具有特定游戏的环境(健身房复古)

    python - 如何在测试中正确设置相对于运行脚本的路径?

    apache-spark - 向 Spark DataFrame 添加一列并为其计算值

    apache-spark - 如何在 Kubernetes 中对外公开 StatefulSet cassandra 集群的无外设服务

    python - 使用 SQLAlchemy 查询到 pandas df 时出现 SAWarning

    python - 如何在 PyCharm 的事件选项卡中运行代码?

    python - 为什么同一类的两个实例具有不同的属性(Python)是明智的?

    python - 无法连接到简单 HTTPS 服务器

    python - 有没有办法使用 Pandas Python 将 excel 中具有相同键值的行中的所有值相加?

    python - 如何将分区保存到特定名称的文件?