database - 按日期绘制 Twitter 搜索结果的词云？ (使用 R)

我希望在推特上搜索一个词(比如#google)，然后能够根据日期生成推特中使用的词的标签云(例如，有一个小时的移动窗口，每次移动 10 分钟，并向我展示了一天中如何更频繁地使用不同的词)。

我将不胜感激任何有关如何执行此操作的帮助:信息资源、编程代码(R 是我唯一擅长使用的语言)和可视化想法。问题:

我如何获取信息？

在 R 中，我发现 twitteR 包中有 searchTwitter 命令。但我不知道我能从中得到多大的“n”。此外，它不会返回 twitt 的起源日期。

我看到 here我可以得到直到 1500 twitts，但这需要我手动进行解析(这使我进入第 2 步)。此外，出于我的目的，我需要数以万计的推特。甚至有可能让他们回顾过去吗？ (例如，每次通过 API URL 询问较旧的帖子？)如果没有，还有一个更普遍的问题，即如何在您的家用计算机上创建个人推文存储？ (这个问题最好留给另一个 SO 线程——尽管这里的人的任何见解对我来说都很有趣)
如何解析信息(在 R 中)？我知道 R 具有可以从 rcurl 和 twitteR 包中获得帮助的功能。但我不知道是哪个，也不知道如何使用它们。任何建议都会有所帮助。
如何分析？如何删除所有“不有趣”的词？我发现 R 中的“tm”包有 this example :

路透社 <- tm_map(路透社，removeWords，停用词(“英语”))

这会成功吗？我应该做点别的/更多吗？

此外，我想我想在根据时间切割我的数据集后执行此操作(这将需要一些类似 posix 的函数(我不确定这里需要哪些函数，或如何使用它)。
最后，还有可视化的问题。如何创建单词的标签云？我找到了 a solution for this here , 还有其他建议吗？

我相信我在这里问了一个很大的问题，但我试图将其分解为尽可能多的直截了当的问题。欢迎任何帮助!

最好的，

塔尔

最佳答案

使用“snippets”包的 R 中的词/标签云
www.wordle.net
使用 openNLP 包，您可以对推文进行 pos-tag(pos=词性)，然后仅提取名词、动词或形容词以在词云中进行可视化。
也许您可以查询 twitter 并使用当前系统时间作为时间戳，写入本地数据库并以 x 秒/分钟的增量再次查询，等等。
http://www.readwriteweb.com/archives/twitter_data_dump_infochimp_puts_1b_connections_up.php 提供历史数据和 http://www.wired.com/epicenter/2010/04/loc-google-twitter/

关于database - 按日期绘制 Twitter 搜索结果的词云？ (使用 R)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2961325/