python - 如何删除 python 数据表 h2oai 中的重复项

python 中的数据表包( https://github.com/h2oai/datatable/ )可以计算列中唯一值的数量，有没有办法用这个包删除重复值，或者我必须使用慢速的 pandas 包？

最佳答案

如果您想查找单个列中的唯一值，则可以使用函数dt.unique()，该函数接受一列并返回一个新列，其中包含原始列中的所有唯一值:

>>> import datatable as dt
>>> DT = dt.Frame(A=[1, 3, 2, 1, 4, 2, 1], B=list("ABCDEFG"))
>>> dt.unique(DT["A"])
   |  A
-- + --
 0 |  1
 1 |  2
 2 |  3
 3 |  4

[4 rows x 1 column]

另一方面，如果您有一个多列框架，并且您只想保留其中一列中具有唯一值的行，那么这相当于按该列进行分组，并且可以这样处理:

>>> from datatable import f, by, first
>>> DT[:, first(f[1:]), by(f[0])]
   |  A  B 
-- + --  --
 0 |  1  A 
 1 |  2  C 
 2 |  3  B 
 3 |  4  E 

[4 rows x 2 columns]

关于python - 如何删除 python 数据表 h2oai 中的重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59518729/

上一篇：python - 除非按顺序，否则不会读取路径

下一篇：python - 并行化数百万次 Numpy 函数迭代

r - 如何对数据框进行子集化以仅保留第一个重复项？

python - 如何在python中组合(合并)两个数据表框架

Python requests lib，requests.Session 相当于 urllib2 的 opener 吗？

python - 在子字符串上加入 pandas 数据框

python - Django 对 3 个相关表的查询优化

python - 从 PySpark 中的数据框中删除重复项

java - 是否有一个 LinkedHashSet/Map 等效项，并为插入的重复项保留顺序？

python - MacOS 上的 python Datatable view() 的列名称模糊或不可见