假设我正在根据各种标准从 Twitter 收集推文,并将这些推文存储在本地 mysql 数据库中。我希望能够计算出 1-3 个单词长度的热门话题,例如 twitter。
有没有可能写一个脚本来做这样的PHP和mysql?
我找到了关于如何计算哪些术语是“热门”术语的答案,一旦您能够获得这些术语的计数,但我停留在第一部分。我应该如何将数据存储在数据库中,如何计算数据库中长度为 1-3 个单词的术语的频率?
最佳答案
我收到的热门话题:
1. 获取推文
2. 按空格将每条推文拆分为 n-gram(如果你想要 3 个单词长度,最多 3 克)数组
3.从url、@username、常用词和垃圾字符中过滤掉每个数组
4.统计所有独特的关键字/词组频率
5. 屏蔽一些垃圾词/短语
是的,你可以在 php 和 mysql 上完成 ;)
关于php - 计算热门话题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2247663/