r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据

我想在 Twitter 中包含一个示例数据集(来自 metadata 推文和 R)我正在写的包。

我使用 Twitter API 下载了一个示例 data.frame并将其另存为 .RData (带有相应的 .R 数据描述文件)在我的包中。

当我跑 R CMD检查，我得到以下注意，

 * checking data for non-ASCII characters ... NOTE
 Note: found 287 marked UTF-8 strings

我尝试保存 data.frame与 ASCII=TRUE ，希望这能解决问题。但它仍然存在。关于如何获得 R CMD 的任何想法检查运行没有笔记？

(此外，如果这是解决方案，我愿意从示例数据中删除所有 UTF-8 标记的字符串)。谢谢!

data.frame 中的示例行:

First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
  favorited favoriteCount replyToSN             created truncated replyToSID                 id replyToUID
1     FALSE             0      <NA> 2015-03-13 23:30:35     FALSE       <NA> 576525795927179264       <NA>
                                                   statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a>  my_name93            0     FALSE     FALSE
      longitude    latitude
1 -122.38100052 37.61865062

最佳答案

如果将来对任何人有用，我发现的解决方案是:
UTF-8 标记字符位于数据集中，因为 Twitter 推文有时包含表情符号。
我得到的建议是，没有一种简单的方法可以在不删除所有 UTF-8 标记字符串的情况下摆脱 PACKAGE CMD CHECK 中的 NOTE 。
为此，我使用了以下命令:nonUTF <- iconv(df$TroubleVector, from="UTF-8", to="ASCII")在具有表情符号等的向量上。如果该值具有 UTF-8 标记的字符串，则此命令返回 NA。我用它来对数据集进行子集化 - 现在我得到了一个干净的构建。

关于r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29043932/

r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据

上一篇：groovy - 以编程方式获取插件的 Jenkins 配置

下一篇：sql - 表变量与临时表