我想在 Twitter
中包含一个示例数据集(来自 metadata
推文和 R
)我正在写的包。
我使用 Twitter API
下载了一个示例 data.frame并将其另存为 .RData
(带有相应的 .R
数据描述文件)在我的包中。
当我跑 R CMD
检查,我得到以下注意,
* checking data for non-ASCII characters ... NOTE
Note: found 287 marked UTF-8 strings
我尝试保存
data.frame
与 ASCII=TRUE
,希望这能解决问题。但它仍然存在。关于如何获得 R CMD
的任何想法检查运行没有笔记?(此外,如果这是解决方案,我愿意从示例数据中删除所有
UTF-8
标记的字符串)。谢谢!data.frame 中的示例行:
First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
favorited favoriteCount replyToSN created truncated replyToSID id replyToUID
1 FALSE 0 <NA> 2015-03-13 23:30:35 FALSE <NA> 576525795927179264 <NA>
statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a> my_name93 0 FALSE FALSE
longitude latitude
1 -122.38100052 37.61865062
最佳答案
如果将来对任何人有用,我发现的解决方案是:
UTF-8 标记字符位于数据集中,因为 Twitter 推文有时包含表情符号。
我得到的建议是,没有一种简单的方法可以在不删除所有 UTF-8 标记字符串的情况下摆脱 PACKAGE CMD CHECK 中的 NOTE 。
为此,我使用了以下命令:nonUTF <- iconv(df$TroubleVector, from="UTF-8", to="ASCII")
在具有表情符号等的向量上。如果该值具有 UTF-8 标记的字符串,则此命令返回 NA。我用它来对数据集进行子集化 - 现在我得到了一个干净的构建。
关于r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29043932/