java - 使用 SAXParser 解析 xml 时出现意外行为

标签 java parsing sax

我只是读取 xml 并写回 xml:

<p>Il <b>1888</b> (MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.</p>

结果是:

<p>Il<b>1888</b> (MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.</p>

如你所见,我失去了一个空格。

有人可以解释一下为什么吗?或者我该如何防止这种情况发生?

我的代码:

 package parsing;

import java.io.ByteArrayInputStream;
import java.io.InputStream;
import java.nio.charset.StandardCharsets;

import org.jdom2.Document;
import org.jdom2.Element;
import org.jdom2.input.SAXBuilder;
import org.jdom2.output.Format;
import org.jdom2.output.XMLOutputter;

public class TextCase {

    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub
        String text = "<p>Il <b>1888</b> (MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.</p>";
        String newString = readSave(text);
        System.out.println(newString);

    }

    public static String readSave(String text) throws Exception {


        InputStream is = new ByteArrayInputStream((text).getBytes(StandardCharsets.UTF_8.name()));
        SAXBuilder saxBuilder = new SAXBuilder();
        Document document = saxBuilder.build(is);
        Element classElement = document.getRootElement();

        //processElement(classElement, months, monthIndex);

        XMLOutputter outputter = new XMLOutputter(Format.getCompactFormat().setOmitDeclaration(true));
        String output = outputter.outputString(classElement);

        return output;
    }
}

最佳答案

您需要使用Format.getRawFormat()而不是Format.getCompactFormat()

Format.getCompactFormat()

<p>Il<b>1888</b>(MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.</p>

Format.getPrettyFormat()

<p>
  Il
  <b>1888</b>
  (MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.
</p>

Format.getRawFormat()

<p>Il <b>1888</b> (MDCCCLXXXVIII in numeri romani) è un anno bisestile del XIX secolo.</p>

关于java - 使用 SAXParser 解析 xml 时出现意外行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48516980/

相关文章:

java - java接口(interface)冲突

javascript - 如何解析具有类似 XML 结构的文件,但在内容旁边带有自闭合标签(而不是包含内容)

java - Jsoup 解析器仅针对特定 URL 无法按预期工作

sql-server - 如何使用 scriptdom API 提取跨数据库引用

javax.mail.NoSuchProviderException : No provider for ${mail. 协议(protocol)}

java - 我如何在 Android 应用程序中访问一个简单的 txt 文件?

java - 使用匿名类有什么害处?

java - SAX 解析器无法识别 windows-1255 编码

xsd - SAX 解析器不遵循引用

xml - cvc-complex-type.2.4.a : Invalid content was found starting with element 'MarkupListURI' . 预期为 '{MarkupDeleteURI}' 之一