machine-learning - 这个 NLP 符号的含义是什么?

标签 machine-learning nlp

我正在学习 NLP,尝试在语料库上进行关系提取。我发现these幻灯片并尝试解析高维特征向量的符号(如下所示)。

enter image description here

哪里

enter image description here

如何将最上面的方程变成英文句子?对于每个输入文本单元,x ;对于每个可能的特征,y——特征x是-a y可以用特征向量表示吗?我习惯于看到笛卡尔积符号,我习惯于看到函数符号,我习惯于看到集合构建器符号。但这句话里有太多不熟悉的事情,我无法理解它所说的内容。冒号是什么意思?箭头是什么意思?

最佳答案

这意味着 f 是一个接受输入和输出并生成向量的函数。在这种情况下,输入通常是单词序列,输出是该单词序列的候选标签 - 例如词性标记序列或解析树。问题中链接的 Ryan McDonald 幻灯片的第 8 幻灯片上有一些示例。

麦当劳也提出了这一点,但我会在这里重复一遍:在某些情况下,我们可以纯粹从输入序列(不引用输出)生成特征向量。例如,如果我们标记句子“F is a function”的单词 2,并且我们的特征映射仅包括当前单词和前一个单词,我们会将“F”合并为前一个单词,将“is”合并为当前词。但在某些情况下(特别是“结构化预测”),我们还希望包含取决于候选标签的特征 - 也许是整个输入上的标签序列(请注意,这通常会导致巨大 特征空间)。

另外一点:麦当劳的映射是到一个实值向量(R^n),但是在NLP中,我们经常发现指标特征就足够了,所以很多系统使用位向量来代替(仍然是很高维的)空间)。形式主义没有改变(只有映射函数 f),但简化的假设通常会提高权重向量存储和点积实现的效率。

关于machine-learning - 这个 NLP 符号的含义是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23341858/

相关文章:

nlp - 仅来自 PhraseMatcher 的 Spacy 实体

machine-learning - 如何选择朴素贝叶斯分类器的训练数据

python - keras flow_from_directory 超过或欠采样一个类

尝试部署模型时 Azure 机器学习失败

Python - NLTK 语料库中 tagged_sents 和 tagged_words 之间的区别

java - Android 语音关闭数字识别

nlp - 使用 Java 进行文本分类

python - 执行与矩阵形状相关的 python 代码时出现错误

python - Keras 中的 S 形层

python - gensim 中使用 csv 的 Doc2vec