python - Pandas 字符串系列到张量的 int 标准化

我有一个带有重复字符串值的 Pandas::Series 对象，我需要将其标准化为 int 值以输入 TensorFlow。

我已经考虑过按照 this 将其转换为 Category但它会为每个项目创建一个代码，而不是识别重复项。

例如我希望进行以下转换

['a', 'b', 'c', 'd', 'a', 'a', 'c'] -> [1, 2, 3, 4, 1, 1, 3]

最佳答案

你需要一点改变factorize :

print ((pd.factorize(['a', 'b', 'c', 'd', 'a', 'a', 'c'])[0] + 1).tolist())
[1, 2, 3, 4, 1, 1, 3]

关于python - Pandas 字符串系列到张量的 int 标准化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48478462/

相关文章：

pandas - 如何使用脚本的凭据从 gcs 将 .csv 放入数据框中？