java - 一个字符串上有数百个正则表达式

标签 java regex nlp machine-learning

跟进我之前的问题 Hundreds of RegEx on one string 我最终得到了如下的正则表达式

(section1:|section2:|section3:|section[s]?4:|(special section:|it has:|synonyms:)).*?(?=section1:|section2:|section3:|section[s]?4:|(special section:|it has:|synonyms:)|$)

section section in regex search

我的产品系统中的正则表达式有超过 1000 个字符,并且有多行长。它所做的就是从大段文本中分块,然后再次对这些部分进行单独处理以提取信息。另外,我希望这些部分标题能够兼容自然语言,这就是为什么某些部分可以通过多种方式键入,从而导致正则表达式的大小增加。在性能和可管理性方面有更好的方法吗?

最佳答案

使用词法分析器而不是正则表达式。

关于java - 一个字符串上有数百个正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7412011/

相关文章:

nlp - 查找相似/相关文本算法

java - 如何让用户通过 Stripe 而不是我的 Wordpress 网站进行付款?

java - 具有传出 UDP 流量是否允许此端口上的传入流量?

java - 使用 XMLEventReader 从子节点解码时出现 IllegalStateException

php - 正则表达式 : Matching phone numbers starting with NNN and having 10 numbers

r - 从 R 中的文本中提取字符级 n-gram

java - java中从double到int可能出现的有损转换错误

python - 正则表达式使用递增的数字序列 Python

python - 如何从字符串中多次提取 HTML 标记模式?

java - n 叉树中多个节点的最低公共(public)祖先