我将使用 Twitter 流式 API 来设置真正的实时流,方法是在推文进入时将推文推送到 SQL 数据库中,然后根据需要随时从我的数据库中提取。这将使我能够在某种程度上绕过速率限制,而不会将自己列入黑名单。 I found this method here.
我将跟踪流中的几个关键字(不超过 15 个)
stream.twitter.com/whatever?q=word1 OR word2 OR word3 OR ...
当我存储这些时,最好将它们全部转储到一个大表中,还是通过关键字将它们拼凑起来?我不确定这是否归结为偏好,或者一种方式是否比另一种更好。
我认为最终归结为对它们进行预处理以将它们放入正确的关键字表中,或者从大量表中对它们进行后处理以选择 keyword = "word1"等的关键字。
从优化的角度来看,有什么想法更好吗?
最佳答案
绝对不是每个关键字的单独表格。
如果你想走关系数据库路线,我当然会推荐更少的表和更多的索引。除了关键字表、帖子表和 keyword_post 关联表之外,不确定您到底想要做什么。
关于php - 存储具有不同关键字的推文。单个大表,还是每个关键字一个表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14508808/