python - NLP 任务中的 token-level 和 segment-level 有什么区别？

其实我对token不是很了解.. 当我阅读 googleresearch/bert model 时，我看到了这些词。

# In the demo, we are doing a simple classification task on the entire   
# segment.  
#   
# If you want to use the token-level output, use model.get_sequence_output()   # instead.

谁能举个关于token级和segment级分类的例子？

最佳答案

段级分类意味着每个段都有一个标签，例如，一个分类器将电影评论分类为好或坏。整个输入序列只有一个输出标签。

标记级分类意味着每个标记都将被赋予一个标签，例如，词性标注器会将每个词分类为一个特定的词性。每个标记(序列中的元素)将在输出中具有相应的标签。

如果您不确定 token 是什么，可以先将其视为句子中的每个单词，但为了更正确，请查看 https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html .根据您对文本进行标记化和预处理的方式，标记可以是单词、标点符号、特殊标记、子词级符号等。

关于python - NLP 任务中的 token-level 和 segment-level 有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53444377/

上一篇：ansible - 如何通过 --extra-vars 将额外变量作为字典列表传递给 ansible 到 ansible playbook？

下一篇：javafx - fxml 包括其他 fxml 文件和用户定义的属性

相关文章：

c++ - 简单的拼写检查算法

python - 删除有拼写错误的 Pandas 数据框的最有效方法是什么？

python - 为什么 mpirun 在循环中卡住

python - Keras CNN 隐藏维度

python - 为什么在使用 next() 时出现 StopIteration 错误？

python - 尝试使用 Anaconda-navigator 安装 Tensorflow 但在导航器中找不到该包

open-source - 目前正在开发的机器翻译应用程序/库有哪些示例？

python - 你如何在 pytest session 结束时清理资源？

linux - 是否有可能在 Windows Linux 子系统上获得 OpenCL？

tensorflow - tensorflowjs_converter : command not found