tokenize.fit_on_text
之间的区别, tokenize.text_to_sequence
和 word embeddings
?
试图在各种平台上搜索,但没有得到合适的答案。
最佳答案
词嵌入是一种表示单词的方式,使得具有相同/相似含义的单词具有相似的表示。两种常用的学习词嵌入的算法是 Word2Vec 和 GloVe。
请注意,在针对特定 NLP 问题训练神经网络进行文本处理时,也可以从头开始学习词嵌入。你也可以使用迁移学习;在这种情况下,这意味着从关于您的问题的庞大数据集中转移单词的学习表示。
至于标记器(我假设我们正在谈论的是 Keras),从文档中获取:
tokenize.fit_on_text()
--> 根据词频创建词汇索引。例如,如果您有短语“我的狗与您的狗不同,我的狗更漂亮”,word_index["dog"] = 0
, word_index["is"] = 1
(狗出现3次,是出现2次)tokenize.text_to_sequence()
--> 将每个文本转换为整数序列。基本上,如果您有一个句子,它会为您句子中的每个单词分配一个整数。您可以访问 tokenizer.word_index()
(返回字典)以验证分配给您的单词的整数。关于keras - keras.tokenize.text_to_sequences 和词嵌入有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56466469/