在输入时,我有一个纯文本(在我的情况下通常是 HTML)和一个“语法规范”(从纯文本提取数据到结构化数据的某种方法),然后在输出时我需要一些结构化数据(JSON 很好,但也许还有更好的东西?)
是否有用于此任务的库?指定“语法规范”的好方法是什么? 解决此类问题的最佳方法是什么?
最佳答案
一些基于语法的转换工具:
- TXL http://www.txl.ca/
- Stratego/XT http://strategoxt.org/
- ASF+SDF http://www.meta-environment.org/
添加:
- FPP (http://jffp.sourceforge.net/) 是一个有用的 Java 平面文件解析库
- 如果输入文件仅为 HTML,jsoup (http://jsoup.org/) 是一个 Java HTML 解析器
- http://htmlparser.sourceforge.net/也是如此或http://mozillaparser.sourceforge.net/或http://jericho.htmlparser.net/docs/index.html
关于java - 从纯文本中提取结构化数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8745989/