java - 解析Java中的结构化文档

标签 java parsing

我想用 Java 库将一些法律文件解析成代表标题、段落等的文本片段。法律文件通常结构良好,所以我想使用比 JavaCC(或其他解析器)更简单的东西发电机)。有没有什么可以(几乎)自动检测到这样的结构?

谢谢。

最佳答案

我认为没有工具可以“几乎自动”提取此类结构。如果提取结构真的很容易,则不需要任何工具,您可以轻松地自己编写代码。如果不是那么容易,您需要一个足够强大的工具(JavaCC、ANTLR ...)。

我认为使用自定义代码自己解析文本是最好的方法。也许事先阅读一些关于解析的内容(递归体面,词法分析器/解析器分离......)。对于简单的结构,不难快速获得可行的解决方案。

关于java - 解析Java中的结构化文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5678632/

相关文章:

python - 如何在 Pharo Smalltalk 中加载 Python 解析器?

ios - 如何从json解析图片URL

java - 为什么 Java Runtime.exec 命令可以工作,但 ProcessBuilder 无法执行 Perforce 客户端命令?

javascript - Jquery 遍历输入字段的祖先

Java NIO : OP_CONNECT never triggered in client, 即使服务器接受连接

python - 元素树 iter() 正在跳过随机元素

parsing - Shift-Reduce 和Reduce-Reduce 示例以及一个已解决的示例?

Java:在这种情况下我应该使用多线程吗?

java - 我可以根据比例缩放ValueAxis吗?

java - Java 字符串到日期解析