java - XMLParser 正在吃掉我的空格

标签 java xml groovy xml-parsing

我正在解析的 wiki 页面丢失了大量空白,我认为这是解析器的问题。我的 Groovy 脚本中有这个:

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it) 
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
}

其中 inputStream 从 URL GET 请求初始化以编辑 confluence wiki 页面。 稍后在我执行此操作的 withInputStream block 中:

println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value

我注意到页面的所有原始内容都被删除了换行符。我最初认为这是服务器端的事情,但是当我在浏览器中发出相同的请求并查看源代码时,我可以在“originalContent”隐藏参数中看到换行符。有没有一种简单的方法来禁用空白规范化并保留字段的内容?以上是针对内部 Confluence wiki 页面运行的,但在编辑任意 wiki 页面时很可能会被拒绝。

以上更新 我添加了对“slurped.keepWhitespace = true”的调用以尝试保留空白,但这仍然不起作用。我在想这个方法适用于元素而不是属性?有没有办法轻松调整底层 Java XMLParser 上的标志?是否有针对属性值中的空白设置的特定设置?

最佳答案

我首先尝试用我自己的一些 confluence 页面重现这个,但是输入节点中没有值属性和文本内容,所以我创建了自己的测试 html。

现在,我认为 tagsoup 解析器也需要配置为保留空格,只是在 slurper 上设置它无济于事,因为默认设置是忽略空格。

所以我就这样做了,tagsoup feature ignorable-whitespace顺便说一句。 (搜索页面上的空格)

不管怎么说,这是行不通的。正如您从示例中看到的那样,保留了属性中的空格,尽管设置了额外功能,但保留文本空格似乎不起作用。也许这是 tagsoup 或 xml slurper 中的错误?

我建议你也仔细看看你的 html,是否真的存在 value 属性?

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String html = """\
<html><head><title>test</title></head><body>
<p>
    <form id="editpageform">
        <p>
            <input name="originalContent" value="         ">         

            </input>
        </p>
    </form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())

def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)

def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true

inputStream.withStream{ doc = slurper.parse(it) 
    def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
    println "originalContent (name)  = '${parse().@name}'"
    println "originalContent (value) = '${parse().@value}'"
    println "originalContent (text)  = '${parse().text()}'"
}

关于java - XMLParser 正在吃掉我的空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10809794/

相关文章:

python - 你如何使用 python 从 <abc>some Text</abc> 获取 "some Text"?

python - 正则表达式查找 '&' 没有结尾分号的位置

java - 元素 eElement = (元素) nNode;应用程序崩溃

android - 如何使用任务gradle删除文件

java - 找到txt文件,为每个文件创建一个空文件,然后删除原始文件

java - 如何在 NetBeans 6.7 中更改小程序查看器的尺寸

java - Groovy 映射强制生成 <class>_groovyProxy

grails - 将值从Grails Controller 传递到src/groovy中的类

java - 返回多个结果集的查询

java - Flinkrocksdb压缩过滤器不工作