python-3.x - 如何在 Vaex 中删除重复项?

标签 python-3.x vaex

我有一些来自用户的条目以及该用户在我的网站上进行了多少次互动...
我有 34 万行和 70 多列,我想使用 Vaex,但我在做一些简单的事情时遇到了问题,比如删除重复项。
有人可以帮助我如何做吗?

import pandas as pd

df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"], 
                   'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30',  '2014-04-20', '2014-05-29'],
                   'interaction_num': ['1', '2', '1', '2', '3', '1','2']})
我想得到与 pandas.drop_duplicates(keep="last") 函数相同的结果
df.drop_duplicates('user', keep='last', inplace=True)
使用 Vaex 的预期结果应该是:
    user    date    interaction_num
1   Bob     2014-02-05  2
4   Alice   2014-04-30  3
6   Ralph   2014-05-29  2

最佳答案

Duplicate question
似乎还没有,但我们应该在某个时候期待这个功能。
同时,还有an attempt from the creator of vaex

关于python-3.x - 如何在 Vaex 中删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63531958/

相关文章:

python - 保持 OrderedDict 的顺序

bigdata - vaex数据框不支持数据生成吗

python - 使用 vaex : blake3. 时出错 __new__() 得到了意外的关键字参数 'multithreading'

python - 函数的大小变化导致不同的答案

python - 为什么类方法的 super 需要第二个参数?

python - 当我在图像上打印文本并且它超出了图像的框架时,如何在 OpenCV 中包装文本?

python - 如果在包根目录中,则无法导入 C++ 扩展

python - 在python vaex中删除重复的行

python - 将带有日期列的 Pandas 数据框转换为 Vaex 数据框