r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据

标签 r twitter utf-8

我想在 Twitter 中包含一个示例数据集(来自 metadata 推文和 R)我正在写的包。

我使用 Twitter API 下载了一个示例 data.frame并将其另存为 .RData (带有相应的 .R 数据描述文件)在我的包中。

当我跑 R CMD检查,我得到以下注意,

 * checking data for non-ASCII characters ... NOTE
 Note: found 287 marked UTF-8 strings

我尝试保存 data.frameASCII=TRUE ,希望这能解决问题。但它仍然存在。关于如何获得 R CMD 的任何想法检查运行没有笔记?

(此外,如果这是解决方案,我愿意从示例数据中删除所有 UTF-8 标记的字符串)。谢谢!

data.frame 中的示例行:
First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
  favorited favoriteCount replyToSN             created truncated replyToSID                 id replyToUID
1     FALSE             0      <NA> 2015-03-13 23:30:35     FALSE       <NA> 576525795927179264       <NA>
                                                   statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a>  my_name93            0     FALSE     FALSE
      longitude    latitude
1 -122.38100052 37.61865062

最佳答案

如果将来对任何人有用,我发现的解决方案是:
UTF-8 标记字符位于数据集中,因为 Twitter 推文有时包含表情符号。
我得到的建议是,没有一种简单的方法可以在不删除所有 UTF-8 标记字符串的情况下摆脱 PACKAGE CMD CHECK 中的 NOTE 。
为此,我使用了以下命令:nonUTF <- iconv(df$TroubleVector, from="UTF-8", to="ASCII")在具有表情符号等的向量上。如果该值具有 UTF-8 标记的字符串,则此命令返回 NA。我用它来对数据集进行子集化 - 现在我得到了一个干净的构建。

关于r - 如何处理带有 UTF-8 标记字符串的 R 包中的示例数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29043932/

相关文章:

r - 如何删除 R-Markdown block 输出中奇怪字符的显示?

r - ggplot2色标离散化连续标度的最简单方法?

php - 使用 twitter API 时出现奇怪的字符和编码

php - twitter api (php) - 状态/销毁 - 不返回任何内容

PHP编码问题

r - 状态名称缩写 功能

java - 如何在 Java 服务器中验证 Twitter OAuth 凭据(包括电子邮件)

javascript - JSON 负载问题,javascript 编码

delphi - 带有欧元符号的 UTF8、IBX 和 Firebird

r - 将变量重要性图集成到整洁的建模框架中