我想用 Java 库将一些法律文件解析成代表标题、段落等的文本片段。法律文件通常结构良好,所以我想使用比 JavaCC(或其他解析器)更简单的东西发电机)。有没有什么可以(几乎)自动检测到这样的结构?
谢谢。
最佳答案
我认为没有工具可以“几乎自动”提取此类结构。如果提取结构真的很容易,则不需要任何工具,您可以轻松地自己编写代码。如果不是那么容易,您需要一个足够强大的工具(JavaCC、ANTLR ...)。
我认为使用自定义代码自己解析文本是最好的方法。也许事先阅读一些关于解析的内容(递归体面,词法分析器/解析器分离......)。对于简单的结构,不难快速获得可行的解决方案。
关于java - 解析Java中的结构化文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5678632/