python - Pandas 字符串系列到张量的 int 标准化

标签 python pandas tensorflow normalization

我有一个带有重复字符串值的 Pandas::Series 对象,我需要将其标准化int 值以输入 TensorFlow。

我已经考虑过按照 this 将其转换为 Category但它会为每个项目创建一个代码,而不是识别重复项。

例如我希望进行以下转换

['a', 'b', 'c', 'd', 'a', 'a', 'c'] -> [1, 2, 3, 4, 1, 1, 3]

最佳答案

你需要一点改变factorize :

print ((pd.factorize(['a', 'b', 'c', 'd', 'a', 'a', 'c'])[0] + 1).tolist())
[1, 2, 3, 4, 1, 1, 3]

关于python - Pandas 字符串系列到张量的 int 标准化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48478462/

相关文章:

pandas - 如何使用脚本的凭据从 gcs 将 .csv 放入数据框中?

python - 如何将列表元素附加到 Pandas 系列中的每一行?

python - 使用 Cityscapes 进行段错误训练 Deeplab

tensorflow - Keras 在具有 python 3.5 和 Tensorflow 1.4 的 Pycharm 上不使用 GPU

python - 使用 Headless Firefox 时 Selenium 的屏幕截图分辨率错误

python - 如何找到路径列表中的公共(public)路径?

python - 如果 <td> 标签具有属性,则抓取 <tr> 标签

function - tensorflow 一数值输出

python - node-pre-gyp install--fallback-to-build--library=static_library

Python:沿着边界从图像中裁剪出区域