r - 地 block 上不需要的元素

我在 R 中使用 data.frame 的子集时遇到问题。

子集已正确创建和显示，但是当我尝试使用 qplot() 绘制它时，未被 subset() 选择的行也得到沿一个轴显示。

我正在阅读的实际文件是网络服务器日志，但我创建了一个小示例来说明我的问题:

这是我读入的 ITEMSSOLD.CSV 文件:

CUST,DT,ITEM,PRICE
BigJoe,10/13/2010,Pickup Truck,20000
TightWad,10/13/2010,USB Drive,12
Jane,10/13/2010,Smart Car,30000
Scrooge,10/13/2010,Gumdrops,1
GeekyMan,10/13/2010,Smart Car,30000

我将其读入数据框，如下所示:

sales_df <- read.table("C:/R_Expt/ItemsSold.csv", header=TRUE, sep=",")

然后我做了一个子集来获取高价商品如下:

big_sales_df <- subset(sales_df, PRICE>100)

big_sales_df

big_sales_df
      CUST         DT         ITEM PRICE
1   BigJoe 10/13/2010 Pickup Truck 20000
3     Jane 10/13/2010    Smart Car 30000
5 GeekyMan 10/13/2010    Smart Car 30000

所以看起来没问题。

当我尝试通过 qplot 绘制它时，如下所示:

qplot(nrow, ITEM, data = ddply(big_sales_df, .(ITEM), "nrow"))

结果图在 Y 轴上显示所有 ITEMS，而不仅仅是 Pickup Truck 和智能汽车。

ddply() 单独产生以下输出:

ddply(big_sales_df, .(ITEM), "nrow")
          ITEM nrow
1 Pickup Truck    1
2    Smart Car    2

由于示例中的 ITEM 数量较少，绘图仍然可读，但在现实生活中，我试图绘制慢速网页的名称，不幸的是，qplot() 试图将所有网页的名称放在 Y 轴上，它就会变成黑色模糊。

我还尝试了 sqldf():

qplot(NSOLD, ITEM, data = sqldf('select ITEM, count(*) as NSOLD from big_sales_df group by ITEM order by count(*) desc'))

但这会产生相同的情节。

我的理解是 subset() 以某种方式在内部携带完整的父信息，而不仅仅是匹配的行。

有什么方法可以告诉 subset() 它应该只保留相关信息吗？

或者任何其他绕过 subset() 携带空成员的方法？

我知道一个蛮力方法可能是将 subset() 的结果写入另一个 CSV 文件，然后在 data.frame 中读回，但我相信有更简单的方法。

非常感谢所有 R 专家!

阿蒂什

最佳答案

您需要删除从您的子集中删除的因子水平。

big_sales_df$ITEM <- factor(big_sales_df$ITEM)
big_sales_df$CUST <- factor(big_sales_df$CUST)

或更改您读取数据的方式:

sales_df <- read.csv("ItemsSold.csv", header=TRUE, stringsAsFactors=FALSE)

关于r - 地 block 上不需要的元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3991870/

r - 地 block 上不需要的元素

上一篇：.net - 将字典填充到 For 表达式的 LINQ 中

下一篇：wpf - 子菜单项命令 MVVM