有谁知道如何构建自动标记(博客文章/文档)算法?任何示例将不胜感激。
最佳答案
我同意 Wooble 所说的。然而,天真的解决方案是简单地编写一个算法来计算给定博客文章与文本语料库相比的词汇相似性和差异性。这种词汇差异将使您在博客文章中找到的单词比在语料库中找到的单词出现频率更高。从这些词中,你可以推断出一个标签。
但我强烈建议不要这样做。自动标记在实践中似乎不起作用。只需将标记工作外包给您的用户或类似 Mechanical Turk 的服务即可
关于algorithm - 自动标注算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4490227/