我希望在推特上搜索一个词(比如#google),然后能够根据日期生成推特中使用的词的标签云(例如,有一个小时的移动窗口,每次移动 10 分钟,并向我展示了一天中如何更频繁地使用不同的词)。
我将不胜感激任何有关如何执行此操作的帮助:信息资源、编程代码(R 是我唯一擅长使用的语言)和可视化想法。问题:
我如何获取信息?
在 R 中,我发现 twitteR 包中有 searchTwitter 命令。但我不知道我能从中得到多大的“n”。此外,它不会返回 twitt 的起源日期。
我看到 here我可以得到直到 1500 twitts,但这需要我手动进行解析(这使我进入第 2 步)。此外,出于我的目的,我需要数以万计的推特。甚至有可能让他们回顾过去吗? (例如,每次通过 API URL 询问较旧的帖子?)如果没有,还有一个更普遍的问题,即如何在您的家用计算机上创建个人推文存储? (这个问题最好留给另一个 SO 线程——尽管这里的人的任何见解对我来说都很有趣)
如何解析信息(在 R 中)?我知道 R 具有可以从 rcurl 和 twitteR 包中获得帮助的功能。但我不知道是哪个,也不知道如何使用它们。任何建议都会有所帮助。
如何分析?如何删除所有“不有趣”的词?我发现 R 中的“tm”包有 this example :
路透社 <- tm_map(路透社,removeWords,停用词(“英语”))
这会成功吗?我应该做点别的/更多吗?
此外,我想我想在根据时间切割我的数据集后执行此操作(这将需要一些类似 posix 的函数(我不确定这里需要哪些函数,或如何使用它)。
最后,还有可视化的问题。如何创建单词的标签云?我找到了 a solution for this here , 还有其他建议吗?
我相信我在这里问了一个很大的问题,但我试图将其分解为尽可能多的直截了当的问题。欢迎任何帮助!
最好的,
塔尔
最佳答案
- 使用“snippets”包的 R 中的词/标签云
www.wordle.net
使用 openNLP 包,您可以对推文进行 pos-tag(pos=词性),然后仅提取名词、动词或形容词以在词云中进行可视化。
- 也许您可以查询 twitter 并使用当前系统时间作为时间戳,写入本地数据库并以 x 秒/分钟的增量再次查询,等等。
- http://www.readwriteweb.com/archives/twitter_data_dump_infochimp_puts_1b_connections_up.php 提供历史数据和 http://www.wired.com/epicenter/2010/04/loc-google-twitter/
关于database - 按日期绘制 Twitter 搜索结果的词云? (使用 R),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2961325/