我正在处理一个数据集有一些明显的数据错误(即小于 1 岁且信用卡余额为 50,000 美元的 child )。我不能逐行遍历,因为设置是 >100k 行。有没有关于如何在数据集中搜索这些类型的明显问题或什至更好地在 R 中搜索任何包的正式工作?还是我应该开始做直方图?
最佳答案
今年的 UserR2011 session 上有一个关于此的 session 。我记得很清楚,因为我主持了它:)
http://www.warwick.ac.uk/statsdept/user-2011/schedule/thursday.html
'deducorrect' 和 'editrules' 软件包可能会对您有所帮助,该 session 中的其他一些谈话也可能有一些指示。
Data Management, MS.01, Chair: Barry Rowlingson
Susan Ranney It's a Boy! An Analysis of Tens of Millions of Birth Records Using R [Slides]
Joanne Demmler Challenges of working with a large database of routinely collected health data: Combining SQL and R [Slides]
John Bryant Demographic: Classes and Methods for Data about Populations
Mark van der Loo Correcting data violating linear restrictions using the deducorrect and editrules packages
关于用于查找错误输入数据的 R 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8460665/