nlp - 标记文本文档 - 监督机器学习

标签 nlp nltk stanford-nlp opennlp

我目前正在开发一个项目,我正在接收电子邮件,使用电子邮件包剥离消息正文,然后我想使用体育、政治、技术等标签对它们进行分类...我已经成功地从我的电子邮件中删除了邮件正文。我想开始分类。

要制作体育、技术、政治、娱乐等多个标签,我需要为每个标签使用一组单词来制作标签。示例

体育标签会有标签数据:Football、Soccer、Hockey……

在哪里可以找到可以帮助我的在线标签数据?

最佳答案

您可以使用DMOZ

获奖吧,有不同种类的文字。例如,电子邮件文本中最常见的单词之一是 HiHello,但在 wiki 文本中 HiHello 不会是常用词

关于nlp - 标记文本文档 - 监督机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45124854/

相关文章:

python - 如何使用 Python/NLTK/Wordnet 避免出现难以描述的错误消息?

python - 我的for循环与yield相结合的问题

python - 从 NLTK WordNet 中单独提取名词

java - 提取中心名词

java - WordNet - 两个单词之间可能存在多种关系?

python - nltk 四元组搭配查找器

java - StanleyNLP - TokensRegexNERAnnotator.readEntries 处的 ArrayIndexOutOfBoundsException(TokensRegexNERAnnotator.java :696))

java - 显示斯坦福 NER 置信度分数

python - 如何检查一个句子是否是一个带有空格的问题?

nlp - 对于序列到序列的 Transformer 模型,decoder_input_ids 应该是什么?