machine-learning - Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

标签 machine-learning neural-network nlp deep-learning keras

我按照以下步骤(大致)使用 Keras 库训练了一个情感分类器模型。

使用 Tokenizer 对象/类将文本语料库转换为序列
使用 model.fit() 方法构建模型
评估此模型

现在，为了使用此模型进行评分，我可以将模型保存到文件中并从文件加载。但是我还没有找到将 Tokenizer 对象保存到文件的方法。如果没有这个，每次我需要对单个句子进行评分时，我都必须处理语料库。有办法解决这个问题吗？

最佳答案

最常见的方法是使用 pickle或joblib 。这里有一个关于如何使用 pickle 来保存 Tokenizer 的示例:

import pickle

# saving
with open('tokenizer.pickle', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

# loading
with open('tokenizer.pickle', 'rb') as handle:
    tokenizer = pickle.load(handle)

关于machine-learning - Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45735070/

上一篇：machine-learning - 为什么要在 SVM 中进行特征缩放？

下一篇：machine-learning - 公开的垃圾邮件过滤器培训套件

machine-learning - 绘制 Kohonen map - 了解可视化

python - 确定句子中缺失词所属的位置

python - PyParsing:这是对 setParseAction() 的正确使用吗？

scala - 使用 Scala 的开源机器学习项目

python - 了解 tf.extract_image_patches 以从图像中提取补丁

neural-network - 神经网络中回归模型输出层的激活函数

r - r 中的 Neuralnet 包结构简单，耗时很长，这里有什么问题吗？

python - SpaCy 自定义 NER 模型训练中 "drop"的含义？

python - TensorFlow 占位符维度 - 有什么区别？