java - 使用来自网络的无监督爬行文本来训练 word2vec 是个好主意吗？

我想知道使用从网络上自动抓取的文本来训练 word2vec 是否是一个好主意。在您可以在网上找到的示例中，算法始终使用高质量的文本进行训练(正确的句子、正确的标点符号、没有奇怪的单词等)。

但是，当自动抓取网页时，原始文本的质量不会那么高。另一方面，训练文本的编写可以自动完成，不需要我们花时间。

最佳答案

为了补充其他答案，我想说这实际上取决于您在创建单词 vector (word2Vec 的输出)后想要对其执行的操作: 如果您的目的是使用它们对质量较差的文本(假设论坛内容或推文中存在口头语言、缩写、不正确的短语等)进行一些自然语言处理(聚类、情感分析等)，那么它可能相关。另一方面，如果您的模型稍后将用于处理高质量的文本，这可能是一个坏主意。

随着(好)文本数量的增加，Word2Vec 算法往往会产生更好的准确性。我当前的方法是使用维基百科的转储，并通过爬行检索的内容对其进行补充。

作为获得更高质量文本的第一种方法，我的爬虫使用高质量网站的白名单(新闻网站、政府和行政部门、大学......)，因此将仅从该网站检索内容。

我仍然保留了一些糟糕的文本，以便至少能够表达一些口头语言、对话、俚语……根据用途，它可能会很有用。

希望有帮助。

关于java - 使用来自网络的无监督爬行文本来训练 word2vec 是个好主意吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34941658/

上一篇：java - 我应该为 Eclipse 中的每个 Java 项目创建工作区吗

下一篇：java - Spring security hasRole() 给出错误 403 - 访问被拒绝

相关文章：

arrays - Tensorflow 中张量和多维矩阵有什么区别？

python - 如何将word2vec转为glove格式

python - 使用 word2vec 作为 tensorflow 输入的 LSTM 的可变句子长度

python - Gensim Word2Vec 从预训练模型中选择次要的词向量集

java - 二叉搜索树的toString方法

java - 从多个表中嵌套选择的性能

r - 在测试数据上使用 LARS 模型进行预测时出现错误消息

r - 为插入符包中的多个列创建DataPartition

java - 有谁知道是否有一个eclipse插件可以指出pom.xml中不兼容的jar？

java - 多态性——构造相同类型的对象