regex - 人工智能 : What kind of process would sites like Wit use to train Natural language

标签 regex nlp artificial-intelligence wit.ai

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

7年前关闭。




Improve this question




我正在从事一个项目,我想在其中实现自然语言理解。但是,我将从小的开始,并希望针对特定查询对其进行训练。

例如,一开始我可能会告诉它:

歌曲。

然后,如果它看到像“Kanye Wests 歌曲”这样的句子,它可以与之匹配。

但是然后我想给它一些额外的句子,这些句子可能意味着相同的事情,以便它最终学会能够将未知句子预测为我已经训练过的集合。

所以我可以加上一句话:“歌曲由

当然,这将是一个可以再次匹配的名称数据库。

我遇到了一个简洁的网站 Wit.ai,它的功能与我所说的类似。然而,他们将他们的匹配解析为一个意图,我想将它与一个简化的查询或更好的数据库匹配(如 facebook 图形搜索)。

我知道上下文无关语法对此很有效(还有其他吗?)。但是有什么好的方法可以训练我说的几个具有相似含义的CFG,然后当它看到未知的句子时可以尝试和预测。

任何想法都会很棒。

基本上,我希望能够采用自然语言句子并将其转换为某种形式,以便更好地理解我的系统并以一种很好的方式呈现给用户。不确定是否有更好的堆栈交换!

最佳答案

首先,我认为 SO 非常适合这个问题(我检查了区域 51,NLP 没有堆栈交换)。

假设您已经熟悉 PCFG 语法的常规训练,我将进入一些可能帮助您实现目标的细节:

在语料库上训练的任何语法都将依赖于该训练语料库中的单词。在未知单词上的糟糕表现不仅在 PCFG 训练中是一个众所周知的问题,而且在几乎所有概率学习框架中都是一个众所周知的问题。但是,我们可以做的是将问题视为释义问题。毕竟,您想将具有相同含义的句子组合在一起,对吗?

在最近的研究中,检测具有相同(或相似)含义的句子或短语采用了一种称为 的技术。分布相似度 .它旨在改进对未见共现的概率估计。基本概念是

words or phrases that share the same distribution—the same set of words in the same context in a corpus—tend to have similar meanings.



您可以仅使用内在特征(例如 PCFG 中的产生式规则)或使用额外的语义知识(例如像 FreeBase 这样的本体)来支持这些特征。使用额外的语义知识可以生成具有相似含义的更复杂的句子/短语,但此类方法通常仅适用于特定领域。因此,如果您希望您的系统仅适用于音乐,这是一个好主意。

重现实际的分布相似性算法会使这个答案变得非常长,所以这里有一篇优秀文章的链接:

Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods由 Madnani 和 Dorr。

对于您的工作,您只需要完成第 3.2 节:使用单一单语语料库进行释义。我相信本文中标记为“算法 1”的算法会对您有所帮助。但是,我不知道有任何公开可用的工具/代码可以做到这一点。

关于regex - 人工智能 : What kind of process would sites like Wit use to train Natural language,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21418946/

相关文章:

algorithm - 深度优先搜索生成的节点总数是多少

python - 我如何在python中从他/她的职业中找到人的性别

python - pybrain 预测只是 float 。我需要整数、 bool 值和字符串

javascript - 1 个字符串,由 2 个单词组成,没有空格

多次使用/g 的 Javascript 正则表达式文字

java - Java 中的语言识别

python - 在 nltk for python 中编辑 Vader_lexicon.txt 以添加与我的域相关的词

algorithm - 有哪些关于植绒和群体算法的好资源?

Python:如何在 if 语句中使用 RegEx?

javascript - Javascript 中的正则表达式用于 trim 链接