python - 字符级别的一种热编码

标签 python scikit-learn keras

所以我遵循了这篇文章中提供的一些示例:How to one-hot-encode sentences at the character level?

而且他们似乎在字符级别进行热编码。但是,我无法弄清楚在字符级别对包含整数的字符串进行热编码。

例如:

"hello" # h=7, e=4 l=11 o=14

将是:

[[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

在我上面提到的帖子的帮助下,我能够实现这一目标。但是有人能够帮助我对以下内容进行热编码吗:

"Hello0311"

非常感谢任何帮助和指导

最佳答案

可以直接使用Keras提供的单例编码功能。像这样的事情:

import numpy as np
from keras.utils import np_utils
y_train_label = [7,4,11,11,14]
y_train_label_onehot = np_utils.to_categorical(y_train_label)
print('one_hot:',y_train_label_onehot)

结果: Figure one hot

关于python - 字符级别的一种热编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50978894/

相关文章:

python - 使用 pip 安装 Mayavi - 没有名为 vtk 的模块

python - 如何使用 python 分割解析后的 html 输出?

python - 搜索某些 txt 的正则表达式模式的算法

python - 用一些不在训练集中的词预测分类(朴素贝叶斯)

scikit-learn - CountVectorizer 的 sklearn 部分拟合

python - CNN中如何根据模型转换测试数据?

keras 预处理逻辑

python - 鼠标事件中的 tkinter wait_variable

python - scikit-learn 使用的 CART 算法是确定性的吗?

python - 为什么 tf.executing_eagerly() 在 TensorFlow 2 中返回 False?