我有一个带有重复字符串值的 Pandas::Series
对象,我需要将其标准化为 int
值以输入 TensorFlow。
我已经考虑过按照 this 将其转换为 Category
但它会为每个项目创建一个代码,而不是识别重复项。
例如我希望进行以下转换
['a', 'b', 'c', 'd', 'a', 'a', 'c'] -> [1, 2, 3, 4, 1, 1, 3]
最佳答案
你需要一点改变factorize
:
print ((pd.factorize(['a', 'b', 'c', 'd', 'a', 'a', 'c'])[0] + 1).tolist())
[1, 2, 3, 4, 1, 1, 3]
关于python - Pandas 字符串系列到张量的 int 标准化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48478462/