machine-learning - 在基于转换的依存分析中使用 LIBLINEAR

我将使用 LIBLINEAR 为基于转换的依赖关系解析做一些工作。但我很困惑如何使用它。如下:

我为基于转换的依赖解析的训练和测试过程设置了 3 个特征模板:

1. the word in the top of the stack
2. the word in the front of the queue
3. information from the current tree formed with the steps

LIBLINEAR中定义的特征是:

FeatureNode(int index, double value)

一些例子，例如:

LABEL       ATTR1   ATTR2   ATTR3   ATTR4   ATTR5
-----       -----   -----   -----   -----   -----
1           0       0.1     0.2     0       0
2           0       0.1     0.3    -1.2     0
1           0.4     0       0       0       0
2           0       0.1     0       1.4     0.5
3          -0.1    -0.2     0.1     1.1     0.1

但我想在某个阶段定义我的特征，例如(一句话“我爱你”):

feature template 1: the word is 'love' 
feature template 2: the word is 'you'
feature template 3: the information is - the left son of 'love' is 'I'

这是否意味着我必须使用 LIBLINEAR 定义功能，例如: -------FORMAT 1 (词汇索引:0-我，1-爱，2-你)

LABEL       ATTR1(template1)   ATTR2(template2)   ATTR3(template3)
-----       -----              -----              -----
SHIFT           1                 2                   0
(or LEFT-arc, 
 RIGHT-arc)

但是我考虑了其他人的一些陈述，我似乎用二进制定义了特征，所以我必须定义一个单词向量，例如: ('我', '爱', '你')，例如当'你'出现时，向量为(0, 0, 1)

所以LIBLINEAR的特征可能是:--------FORMAT 2

LABEL       ATTR1('I')   ATTR2('love')   ATTR3('love')
-----       -----              -----              -----
SHIFT           0                 1                   0       ->denoting the feature template 1
(or LEFT-arc, 
 RIGHT-arc)
SHIFT           0                 0                   1       ->denoting the feature template 2
(or LEFT-arc, 
 RIGHT-arc)
SHIFT           1                 0                   0       ->denoting the feature template 3
(or LEFT-arc, 
 RIGHT-arc)

格式 1 和格式 2 哪个是正确的？

我是不是搞错了什么？

最佳答案

基本上你有一个以下形式的特征向量:

LABEL RESULT_OF_FEATURE_TEMPLATE_1 RESULT_OF_FEATURE_TEMPLATE_2 RESULT_OF_FEATURE_TEMPLATE_3

Liblinear 或 LibSVM 希望您将其转换为整数表示:

1 1:1 2:1 3:1

现在，根据您使用的语言，有很多包/库，它们会自动将字符串向量转换为 libsvm 格式，而您无需了解详细信息。

但是，如果出于某种原因你想自己做，最简单的事情就是维护两个映射:一个标签映射 ('shift' -> 1, 'left-arc' -> 2, 'right-arc ' -> 3，'减少' -> 4)。一个用于您的特征模板结果('f1=I' -> 1、'f2=love' -> 2、'f3=you' -> 3)。基本上，每次您的算法应用功能模板时，您都会检查结果是否已在映射中，如果没有，则使用新索引添加它。

请记住，Liblinear 或 Libsvm 需要按升序排列的列表。

在处理过程中，您首先将功能模板应用到堆栈的当前状态，然后将字符串转换为 libsvm/liblinear 整数表示形式，并按升序对索引进行排序。

关于machine-learning - 在基于转换的依存分析中使用 LIBLINEAR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23966269/

machine-learning - 在基于转换的依存分析中使用 LIBLINEAR

上一篇：matlab - 回归高斯过程的超参数

下一篇：matlab - 任一特征集上的分类都很好，但组合特征集上的分类很差