java - 如何在 Java 中解析大 (50 GB) XML 文件

标签 java xml xml-parsing sax

目前我正在尝试使用 SAX 解析器,但大约 3/4 的文件完全卡住了,我尝试分配更多内存等但没有得到任何改进。

有什么办法可以加快速度吗?更好的方法?

将其剥离,所以我现在有以下代码,当在命令行中运行时,它仍然没有我想要的那么快。

使用“java -Xms-4096m -Xmx8192m -jar reader.jar”运行它,我得到超过文章 700000 附近的 GC 开销限制

主要:

public class Read {
    public static void main(String[] args) {       
       pages = XMLManager.getPages();
    }
}

XML 管理器

public class XMLManager {
    public static ArrayList<Page> getPages() {

    ArrayList<Page> pages = null; 
    SAXParserFactory factory = SAXParserFactory.newInstance();

    try {

        SAXParser parser = factory.newSAXParser();
        File file = new File("..\\enwiki-20140811-pages-articles.xml");
        PageHandler pageHandler = new PageHandler();

        parser.parse(file, pageHandler);
        pages = pageHandler.getPages();

    } catch (ParserConfigurationException e) {
        e.printStackTrace();
    } catch (SAXException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }


    return pages;
    }    
}

页面处理程序

public class PageHandler extends DefaultHandler{

    private ArrayList<Page> pages = new ArrayList<>();
    private Page page;
    private StringBuilder stringBuilder;
    private boolean idSet = false;

    public PageHandler(){
        super();
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {

        stringBuilder = new StringBuilder();

         if (qName.equals("page")){

            page = new Page();
            idSet = false;

        } else if (qName.equals("redirect")){
             if (page != null){
                 page.setRedirecting(true);
             }
        }
    }

     @Override
     public void endElement(String uri, String localName, String qName) throws SAXException {

         if (page != null && !page.isRedirecting()){

             if (qName.equals("title")){

                 page.setTitle(stringBuilder.toString());

             } else if (qName.equals("id")){

                 if (!idSet){

                     page.setId(Integer.parseInt(stringBuilder.toString()));
                     idSet = true;

                 }

             } else if (qName.equals("text")){

                 String articleText = stringBuilder.toString();

                 articleText = articleText.replaceAll("(?s)<ref(.+?)</ref>", " "); //remove references
                 articleText = articleText.replaceAll("(?s)\\{\\{(.+?)\\}\\}", " "); //remove links underneath headings
                 articleText = articleText.replaceAll("(?s)==See also==.+", " "); //remove everything after see also
                 articleText = articleText.replaceAll("\\|", " "); //Separate multiple links
                 articleText = articleText.replaceAll("\\n", " "); //remove new lines
                 articleText = articleText.replaceAll("[^a-zA-Z0-9- \\s]", " "); //remove all non alphanumeric except dashes and spaces
                 articleText = articleText.trim().replaceAll(" +", " "); //convert all multiple spaces to 1 space

                 Pattern pattern = Pattern.compile("([\\S]+\\s*){1,75}"); //get first 75 words of text
                 Matcher matcher = pattern.matcher(articleText);
                 matcher.find();

                 try {
                     page.setSummaryText(matcher.group());
                 } catch (IllegalStateException se){
                     page.setSummaryText("None");
                 }
                 page.setText(articleText);

             } else if (qName.equals("page")){

                 pages.add(page);
                 page = null;

            }
        } else {
            page = null;
        }
     }

     @Override
     public void characters(char[] ch, int start, int length) throws SAXException {
         stringBuilder.append(ch,start, length); 
     }

     public ArrayList<Page> getPages() {
         return pages;
     }
}

最佳答案

您的解析代码可能工作正常,但您正在加载的数据量可能太大而无法保存在 ArrayList 的内存中。

您需要某种管道将数据传递到其实际目的地,而无需任何时间 一次将其全部存储在内存中。

我有时对这种情况所做的类似于以下情况。

创建处理单个元素的接口(interface):

public interface PageProcessor {
    void process(Page page);
}

通过构造函数向 PageHandler 提供 this 的实现:

public class Read  {
    public static void main(String[] args) {

        XMLManager.load(new PageProcessor() {
            @Override
            public void process(Page page) {
                // Obviously you want to do something other than just printing, 
                // but I don't know what that is...
                System.out.println(page);
           }
        }) ;
    }

}


public class XMLManager {

    public static void load(PageProcessor processor) {
        SAXParserFactory factory = SAXParserFactory.newInstance();

        try {

            SAXParser parser = factory.newSAXParser();
            File file = new File("pages-articles.xml");
            PageHandler pageHandler = new PageHandler(processor);

            parser.parse(file, pageHandler);

        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

将数据发送到此处理器而不是将其放入列表中:

public class PageHandler extends DefaultHandler {

    private final PageProcessor processor;
    private Page page;
    private StringBuilder stringBuilder;
    private boolean idSet = false;

    public PageHandler(PageProcessor processor) {
        this.processor = processor;
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
         //Unchanged from your implementation
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
         //Unchanged from your implementation
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
            //  Elide code not needing change

            } else if (qName.equals("page")){

                processor.process(page);
                page = null;

            }
        } else {
            page = null;
        }
    }

}

当然,您可以让您的界面处理多条记录的 block ,而不仅仅是一条记录,并让 PageHandler 将页面本地收集到一个较小的列表中,并定期发送列表进行处理并清除列表.

或者(也许更好)您可以实现此处定义的 PageProcessor 接口(interface),并在此处构建逻辑来缓冲数据并将其发送到 block 中以进一步处理。

关于java - 如何在 Java 中解析大 (50 GB) XML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26310595/

相关文章:

python - 如何以 Python 方式使用 ElementTree 将标签的值与标签的标签相关联

java - 将一个 Java 类转换为不同的 Json 格式

java - 执行 "AbstractMethodError"构造函数时发生 "org.hibernate.internal.SessionFactoryImpl()"错误

java - spring发送邮件出现异常

java - 比较枚举与列表 Thymeleaf

xml - 选择不包含具有给定text()的任何子代的节点?

android - 当我点击搜索项目时,搜索 ListView 项目位置发生变化

php - 在php中通过属性选择xml节点

C# 用相应数据类型的默认值替换空 XML 节点

python - UnicodeEncodeError : 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)