keras - keras.tokenize.text_to_sequences 和词嵌入有什么区别

标签 keras tensorflow2.0 tokenize word-embedding tensorflow2.x

tokenize.fit_on_text之间的区别, tokenize.text_to_sequence和 word embeddings ?

试图在各种平台上搜索，但没有得到合适的答案。

最佳答案

词嵌入是一种表示单词的方式，使得具有相同/相似含义的单词具有相似的表示。两种常用的学习词嵌入的算法是 Word2Vec 和 GloVe。
请注意，在针对特定 NLP 问题训练神经网络进行文本处理时，也可以从头开始学习词嵌入。你也可以使用迁移学习；在这种情况下，这意味着从关于您的问题的庞大数据集中转移单词的学习表示。
至于标记器(我假设我们正在谈论的是 Keras)，从文档中获取:

tokenize.fit_on_text() --> 根据词频创建词汇索引。例如，如果您有短语“我的狗与您的狗不同，我的狗更漂亮”，word_index["dog"] = 0 , word_index["is"] = 1 (狗出现3次，是出现2次)

tokenize.text_to_sequence() --> 将每个文本转换为整数序列。基本上，如果您有一个句子，它会为您句子中的每个单词分配一个整数。您可以访问 tokenizer.word_index() (返回字典)以验证分配给您的单词的整数。

关于keras - keras.tokenize.text_to_sequences 和词嵌入有什么区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56466469/

上一篇：django - 运行 django 测试时如何修复 "TypeError: argument of type ' ConnectionHandler' is not iterable”？

下一篇：vue.js - 如何修复 axios 中的 'TypeError: name.toUpperCase is not a function'

相关文章：

python - 使用 Django 服务 Keras 模型

theano - 使用深度学习库 Keras 时出现 AssertionError

python - Tensorflow 2 中 tf.variable 的条件赋值

python - 元组没有属性 'isdigit'

python - 简单LSTM模型: No attr named '_XlaCompile' in name error

keras - 文本特征多于1个时如何使用Keras Embedding层

python - Tensorflow中 `tf.function`和 `autograph.to_graph`是什么关系？

python-3.x - 如何使用 flow_from_directory 来拟合自动编码器

java - 为什么 StringTokenizer 不能正常使用 $$ 作为分隔符

c - 遍历客户端程序接收到的缓冲区