python - dask dataframe 删除重复的索引值

标签 python python-2.7 pandas dataframe dask

我正在使用带有 python 2.7 的 dask dataframe,并希望从我的 df 中删除重复的索引值。

当使用 pandas 时,我会使用

df = df[~df.index.duplicated(keep = "first")]

而且它有效

当尝试对 dask dataframe 执行相同操作时,我得到

AttributeError: 'Index' object has no attribute 'duplicated'

我可以重置索引,然后使用作为索引的列来删除重复项,但如果可能的话我想避免它

我可以使用 df.compute() 并删除重复的索引值,但这个 df 对于内存来说太大了。

如何使用 dask 数据帧从数据帧中删除重复的索引值?

最佳答案

我认为您需要将 index 转换为 Series by to_series , keep='first' 应该省略,因为 duplicated 中的默认参数:

df = df[~df.index.to_series().duplicated()]

关于python - dask dataframe 删除重复的索引值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47534099/

相关文章:

python - 将 CSV 导入 MySQL 数据库 (Django Webapp)

python - 如果仅用于原始 sql,SQLAlchemy 性能如何?

具有多个可变长度元素的Python列表理解?

Python交换一个数字中的两位数?

python - 如何将 Cython 安装为该程序的依赖项?

python - Hello World,继续运行 appengine : ctypes error

python - PANDAS 将数据框按唯一值行拆分为多个

python - 将特定类别范围内的随机数分配给 Pandas 数据框

python - Pandas - 不同ID的不同关键字集,搜索字符串是否包含关键字

python - 我可以通过 OpenCV 加载多帧 TIFF 吗?