python - 使用 urllib 而不是 twitter api 爬取 twitter

标签 python twitter urllib web-crawler

我想从推特上抓取数据。我正在使用 twitter api,但受限于速率限制,它运行起来非常慢。 或者,我可以通过直接解析 url 来绕过 twitter api,例如。 urllib 包。但这就是我所知道的。

你们能否提供更多关于如何在不使用 twitter api 的情况下抓取时间线和跟踪来自 twitter 的数据的帮助?你有什么建议吗?提前致谢。

PS:我正在使用 Python 进行编程。

最佳答案

此过程需要使用 BeautifulSoup。

from BeautifulSoup import BeautifulSoup as soupy
from urllib import urllib
html = urllib.urlopen(YOUR_TWITTER_URL).read()
soup = soupy(html)
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'):
     print tweet.find('p').text

关于python - 使用 urllib 而不是 twitter api 爬取 twitter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17241476/

相关文章:

python - 'and' N 'or' 在 python 中到底是什么意思?

twitter - 如何获取推文的ID

twitter - 如何修复 IE 上的 twitter-bootstrap?

python - PyCharm 中的字典自动完成?

python - 有什么方法可以在 vscode 调试器中出现不可预见的异常时继续执行吗?

python - 如何通过 python 保存 Google pdf 文件?

python - 如何请求已在 python-requests 中进行 URL 编码的 URL?

python - 多线程可加快下载速度

Python - 使用 2 个键调用字典

android - 在 Android 上通过 native Twitter 应用程序打开 Twitter 推文