regex - 如何从用户输入的句子中检测谁、什么、何时、何地

标签 regex algorithm nlp tokenize

是否有一个好的算法/标记器/正则表达式或其他一些技术可以在用户键入时检测英语句子的哪一部分是“谁”、“什么”、“何时”和“何处”?

理想情况下,它可以在 Elastic Search、JavaScript 或 .net 中实现。

或者,也许可以检测句子的主语和动词。

如果它适用于英语,它是否可以国际化?

最佳答案

我不知道是否有针对所有这四个问题的特定技术,但已经针对每个问题进行了高级研究。

“Who”、“What”和“Where”可以通过命名实体识别来解析。( http://nlp.stanford.edu/software/CRF-NER.shtml )。

“何时”可能与时间标记领域更相关。(http://nlp.stanford.edu/software/sutime.shtml)。

检测主语、动词或任何其他词性的问题称为词性标记,为此存在许多库。

What is a good Java library for Parts-Of-Speech tagging?

关于regex - 如何从用户输入的句子中检测谁、什么、何时、何地,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27359271/

相关文章:

machine-learning - 拼写检查器使用语言模型

regex - 删除除某些文件之外的文件的表达式

java - Java/POSIX 正则表达式中是否有 `{\pGraph}` 的 Unicode 等效项?

java - 使用 Lucene 的 StandardTokenizer 时保留标点符号

algorithm - 在有向图中找到可以到达所有其他顶点的顶点

algorithm - 这可以用线性时间复杂度解决吗?

python - 通过替换现有文本中的单词进行翻译

regex - 哪种语言最适合(速度方面)运行具有大量循环和正则表达式的算法?

regex - PowerShell-使用REGEX替换每个标签的内容

algorithm - 查找存储在k台计算机上的k个数组中的最大k个数字