database - 按日期绘制 Twitter 搜索结果的词云? (使用 R)

标签 database r visualization twitter

我希望在推特上搜索一个词(比如#google),然后能够根据日期生成推特中使用的词的标签云(例如,有一个小时的移动窗口,每次移动 10 分钟,并向我展示了一天中如何更频繁地使用不同的词)。

我将不胜感激任何有关如何执行此操作的帮助:信息资源、编程代码(R 是我唯一擅长使用的语言)和可视化想法。问题:

  1. 我如何获取信息?

    在 R 中,我发现 twitteR 包中有 searchTwitter 命令。但我不知道我能从中得到多大的“n”。此外,它不会返回 twitt 的起源日期。

    我看到 here我可以得到直到 1500 twitts,但这需要我手动进行解析(这使我进入第 2 步)。此外,出于我的目的,我需要数以万计的推特。甚至有可能让他们回顾过去吗? (例如,每次通过 API URL 询问较旧的帖子?)如果没有,还有一个更普遍的问题,即如何在您的家用计算机上创建个人推文存储? (这个问题最好留给另一个 SO 线程——尽管这里的人的任何见解对我来说都很有趣)

  2. 如何解析信息(在 R 中)?我知道 R 具有可以从 rcurl 和 twitteR 包中获得帮助的功能。但我不知道是哪个,也不知道如何使用它们。任何建议都会有所帮助。

  3. 如何分析?如何删除所有“不有趣”的词?我发现 R 中的“tm”包有 this example :

    路透社 <- tm_map(路透社,removeWords,停用词(“英语”))

    这会成功吗?我应该做点别的/更多吗?

    此外,我想我想在根据时间切割我的数据集后执行此操作(这将需要一些类似 posix 的函数(我不确定这里需要哪些函数,或如何使用它)。

  4. 最后,还有可视化的问题。如何创建单词的标签云?我找到了 a solution for this here , 还有其他建议吗?

我相信我在这里问了一个很大的问题,但我试图将其分解为尽可能多的直截了当的问题。欢迎任何帮助!

最好的,

塔尔

最佳答案

关于database - 按日期绘制 Twitter 搜索结果的词云? (使用 R),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2961325/

相关文章:

mysql - 我们如何将 PostgreSQL 中的序列迁移到 Mysql

r - 是否有一个简单的命令可以使用 lm() 函数进行留一法交叉验证?

r - ggplot2 在 x 轴上的 Year 变量结束时不断添加 .5

r - 如何根据r中的分类列更改highchart中折线图的颜色?

android - ActiveAndroid 数据库位置动态变化

database - django uml 数据库

java - 如何使用 Hibernate 在表中插入新行?

r - 具有箱线图类型分组的点范围图

arrays - SGE 数组作业和 R

asp.net - 绘制网络图