用于查找错误输入数据的 R 包

标签 r statistics data-mining outliers

我正在处理一个数据集有一些明显的数据错误(即小于 1 岁且信用卡余额为 50,000 美元的 child )。我不能逐行遍历,因为设置是 >100k 行。有没有关于如何在数据集中搜索这些类型的明显问题或什至更好地在 R 中搜索任何包的正式工作?还是我应该开始做直方图?

最佳答案

今年的 UserR2011 session 上有一个关于此的 session 。我记得很清楚,因为我主持了它:)
http://www.warwick.ac.uk/statsdept/user-2011/schedule/thursday.html
'deducorrect' 和 'editrules' 软件包可能会对您有所帮助,该 session 中的其他一些谈话也可能有一些指示。

Data Management, MS.01, Chair: Barry Rowlingson

Susan Ranney It's a Boy! An Analysis of Tens of Millions of Birth Records Using R [Slides]

Joanne Demmler Challenges of working with a large database of routinely collected health data: Combining SQL and R [Slides]

John Bryant Demographic: Classes and Methods for Data about Populations

Mark van der Loo Correcting data violating linear restrictions using the deducorrect and editrules packages

关于用于查找错误输入数据的 R 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8460665/

相关文章:

python - 如何对所有变量使用describe() by group?

machine-learning - DBSCAN 算法可以创建少于 minPts 的簇吗?

python - 如何在python中的一行数据中构造多行日志数据?

r - 停止 Map 将日期转换为数字

来自不平衡面板数据的 R 样本

r - 如何使用R在缺失值之前取列中最后10个值的平均值?

algorithm - 给定 RNG,运行经验 PMF 及其变化的估计

javascript - 动态页面的分析跟踪

R:使用 Alpha 控制填充

text - 有人可以以非常简单的图形方式举一个余弦相似度的例子吗?