machine-learning - 使用匹配分数来确定正确的特征(机器学习)

标签 machine-learning feature-selection supervised-learning

一旦功能可用,我熟悉如何确定知识库中给定文档集与搜索查询文档(基于余弦距离)的匹配程度。我们将根据特征将两者映射到向量空间上。

如何处理相反的情况 - 我已获得一组文档和针对多个查询文档的匹配分数,并且必须确定特征(或确定匹配的决策标准)。这将是训练数据,该模型将用于识别与我们的知识数据库的匹配以获取新信息 搜索查询

我们当前的方法是考虑一组特征,并查看哪些组合在训练集中获得最佳匹配分数……但我们最终会尝试多种组合。有一个更好的方法吗?

最佳答案

这是一种简单直接的方法(线性模型),应该可行。 如果您正在处理文档和查询,您正在使用的功能可能是那些标记(或单词)或 n-gram 或主题。为了简单起见,我们假设这些功能只是文字。

假设您有一个查询文档:

apple iphone6 

并且您有一组文档及其针对上述查询的相应匹配分数: (假设文档是urls的内容)

www.apple.com (Apple - iPhone 6) score: 0.8
www.cnet.com/products/apple-iphone-6 (Apple iPhone 6 review), score: 0.75
www.stuff.tv/apple/apple-iphone-6/review (Apple iPhone 6 review), score: 0.7
....

每个查询模型

首先,您需要从匹配的网址中提取单词特征。假设我们得到消息和他们的 L1-normalized TF/IDF 分数:

www.apple.com
apple 0.5
iphone 0.4
ios8 0.1

www.cnet.com/products/apple-iphone-6
apple 0.4
iphone 0.2
review 0.2
cnet 0.2

www.stuff.tv/apple/apple-iphone-6/review
apple 0.4
iphone 0.4
review 0.1
cnet 0.05
stuff 0.05

其次,您可以将功能分数和匹配分数结合起来,并根据每个功能进行聚合:

w(apple) = 0.5 * 0.8 + 0.4 * 0.75 + 0.1 * 0.7 = 0.77
w(iphone) = 0.4 * 0.8 + 0.2 * 0.75 + 0.4 * 0.7 = 0.75
w(ios8) = 0.1 * 0.8 = 0.08
w(review) = 0.2 * 0.75 + 0.1 * 0.7 = 0.22
w(cnet) = 0.2 * 0.75 = 0.15
w(stuff) = 0.05 * 0.7 = 0.035

您可能需要执行标准化步骤,将每个 w 除以文档数量。现在您将获得以下按相关性降序排列的功能:

w(apple)=0.77 / 3
w(iphone)=0.75 / 3
w(review)=0.22 / 3
w(cnet)=0.15 / 3
w(ios8)=0.08 / 3
w(stuff)=0.035 / 3

您甚至可以通过使用这些权重获得线性分类器:

score = w(apple) * tf-idf(apple) + w(iphone) * tf-idf(iphone) + ... + w(stuff) * tf-idf(stuff)

假设现在您有一个检测到这些功能的新网址:

ios8: 0.5
cnet: 0.3
iphone:0.2

然后您可以计算其关于查询“apple iphone6”的匹配分数:

score = w(ios8)*0.5 + w(cnet)*0.3 + w(iphone)*0.2
      = (.08*.5 + .15*0.3 + .75*.2 ) / 3

然后可以使用匹配分数根据文档与相同查询的相关性对文档进行排名。

任意查询模型

您执行相同的操作来为每个查询构建线性模型。假设您的训练数据中有 k 个这样的查询和匹配文档,您最终会得到 k 这样的模型;每个模型都是基于一个查询构建的。

model(apple iphone6) = (0.77*apple + 0.75iphone + 0.22review + ...) / 3
model(android apps) = (0.77google + 0.5android + ...) / 5
model(samsung phone) = (0.5samsung + 0.2galaxy + ...) / 10

请注意,在上面的示例模型中,3、5、10 是标准化器(与每个查询匹配的文档总数)。

现在有一个新的查询,假设它是:

samsung android release

我们剩下的任务是:

  • 查找相关查询q1、q2、...、qm
  • 使用查询模型对新文档进行评分并进行聚合。

您首先需要从此查询中提取特征,并且假设您已经缓存了所学的每个查询的特征。基于任何nearest neighbor方法(例如 Locality sensitive hashing ),您可以找到与“samsung android release”类似的前 k 个查询,可能它们应该是:

similarity(samsung phone, samsung android release) = 0.2
similarity(android apps, samsung android release) = 0.2

总体排名

因此我们得到的最终排名为:

0.2*model(samsung phone) + 0.2*model(android apps) =
  0.2* (0.77*apple + 0.75iphone + 0.22review + ...) / 3 + 
  0.2* (0.77google + 0.5android + ...) / 5

通常在那些信息检索应用程序中,您已经构建了从特征(单词)到文档的倒排索引。因此,最终排名应该能够非常有效地跨顶级文档进行评估。

引用

详情请引用Omid Madani等人的IND算法。 Learning When Concepts Abound .

关于machine-learning - 使用匹配分数来确定正确的特征(机器学习),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26222114/

相关文章:

python - 在Keras中创建 "sample by sample"模型

machine-learning - 高维聚类方法选择?

python - Keras [文本多分类] - 训练和测试的准确性良好,但预测较差

python - 分类器中是否正确选择和使用了所有特征?

algorithm - 朴素贝叶斯和零频问题

statistics - 特征选择和交叉验证

machine-learning - 使用weka对传感器数据进行分类

machine-learning - 噪声数据的学习曲线

python - 如何使用具有不同特征维度的数据集训练 sklearn 分类器?

python - sklearn 特征不影响准确性