我想从推特上抓取数据。我正在使用 twitter api,但受限于速率限制,它运行起来非常慢。 或者,我可以通过直接解析 url 来绕过 twitter api,例如。 urllib 包。但这就是我所知道的。
你们能否提供更多关于如何在不使用 twitter api 的情况下抓取时间线和跟踪来自 twitter 的数据的帮助?你有什么建议吗?提前致谢。
PS:我正在使用 Python 进行编程。
最佳答案
此过程需要使用 BeautifulSoup。
from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
print tweet.find('p').text
关于python - 使用 urllib 而不是 twitter api 爬取 twitter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17241476/