java - 使用来自网络的无监督爬行文本来训练 word2vec 是个好主意吗?

标签 java machine-learning word2vec

我想知道使用从网络上自动抓取的文本来训练 word2vec 是否是一个好主意。在您可以在网上找到的示例中,算法始终使用高质量的文本进行训练(正确的句子、正确的标点符号、没有奇怪的单词等)。

但是,当自动抓取网页时,原始文本的质量不会那么高。另一方面,训练文本的编写可以自动完成,不需要我们花时间。

最佳答案

为了补充其他答案,我想说这实际上取决于您在创建单词 vector (word2Vec 的输出)后想要对其执行的操作: 如果您的目的是使用它们对质量较差的文本(假设论坛内容或推文中存在口头语言、缩写、不正确的短语等)进行一些自然语言处理(聚类、情感分析等),那么它可能相关。另一方面,如果您的模型稍后将用于处理高质量的文本,这可能是一个坏主意。

随着(好)文本数量的增加,Word2Vec 算法往往会产生更好的准确性。我当前的方法是使用维基百科的转储,并通过爬行检索的内容对其进行补充。

作为获得更高质量文本的第一种方法,我的爬虫使用高质量网站的白名单(新闻网站、政府和行政部门、大学......),因此将仅从该网站检索内容。

我仍然保留了一些糟糕的文本,以便至少能够表达一些口头语言、对话、俚语……根据用途,它可能会很有用。

希望有帮助。

关于java - 使用来自网络的无监督爬行文本来训练 word2vec 是个好主意吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34941658/

相关文章:

arrays - Tensorflow 中张量和多维矩阵有什么区别?

python - 如何将word2vec转为glove格式

python - 使用 word2vec 作为 tensorflow 输入的 LSTM 的可变句子长度

python - Gensim Word2Vec 从预训练模型中选择次要的词向量集

java - 二叉搜索树的toString方法

java - 从多个表中嵌套选择的性能

r - 在测试数据上使用 LARS 模型进行预测时出现错误消息

r - 为插入符包中的多个列创建DataPartition

java - 有谁知道是否有一个eclipse插件可以指出pom.xml中不兼容的jar?

java - 多态性——构造相同类型的对象