我们都知道GPT-3模型可以接受和产生英语、法语、中文、日语等各种语言。
在传统的NLP中,不同的语言有不同的token制作方法。
- 对于像英语这样的字母语言,
Bert
使用BPE方法来制作如下的token:
Insomnia caused much frustration.
==>
In-, som-, nia, caus-, ed, much, frus-, tra-, tion, .,
- 对于中文、日文等具有特征性的语言,只需使用字符本身作为标记即可,如下所示。
東京メトロは心に寄り添う
==>
東, 京, メ, ト, ロ, は, 心, に, 寄, り, 添, う,
我说你倒是快点啊!!!
==>
我, 说, 你, 倒, 是, 快, 点, 啊, !, !, !,
但是对于GPT-3来说,它是由不同的语言组成的,并且可以在一句话中产生中文和英文。所以我很好奇这个模型是怎么制作token的。
最佳答案
使用 Tokenizer了解一段文本将如何被 OpenAI API 标记化。
例如,Insomnia caused much frustry.
将被标记为 6 个标记。
然而,我说你倒是快点啊!!!
将被标记为 27 个标记,底部有一个小注释:
Note: Your input contained one or more unicode characters that map to multiple tokens. The output visualization may display the bytes in each token in a non-standard way.
关于nlp - OpenAI GPT-3 API : How does it count tokens for different languages?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75454722/