我想知道使用从网络上自动抓取的文本来训练 word2vec 是否是一个好主意。在您可以在网上找到的示例中,算法始终使用高质量的文本进行训练(正确的句子、正确的标点符号、没有奇怪的单词等)。
但是,当自动抓取网页时,原始文本的质量不会那么高。另一方面,训练文本的编写可以自动完成,不需要我们花时间。
最佳答案
为了补充其他答案,我想说这实际上取决于您在创建单词 vector (word2Vec 的输出)后想要对其执行的操作: 如果您的目的是使用它们对质量较差的文本(假设论坛内容或推文中存在口头语言、缩写、不正确的短语等)进行一些自然语言处理(聚类、情感分析等),那么它可能相关。另一方面,如果您的模型稍后将用于处理高质量的文本,这可能是一个坏主意。
随着(好)文本数量的增加,Word2Vec 算法往往会产生更好的准确性。我当前的方法是使用维基百科的转储,并通过爬行检索的内容对其进行补充。
作为获得更高质量文本的第一种方法,我的爬虫使用高质量网站的白名单(新闻网站、政府和行政部门、大学......),因此将仅从该网站检索内容。
我仍然保留了一些糟糕的文本,以便至少能够表达一些口头语言、对话、俚语……根据用途,它可能会很有用。
希望有帮助。
关于java - 使用来自网络的无监督爬行文本来训练 word2vec 是个好主意吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34941658/