python - 为什么 Mechanize 没有下载完整页面?

标签 python beautifulsoup mechanize mechanize-python

我正在使用 Mechanize 登录 LinkedIn 并获取某个公司的所有员工
但是,当我下载带有员工搜索结果的页面时,它缺少整个中间部分,我不知道为什么。

这是我的代码(取出我的linkedin登录信息):

from mechanize import Browser
from bs4 import BeautifulSoup
br=Browser()
br.set_handle_robots(False)
br.open('https://www.linkedin.com/')
br.select_form('login')
br['session_key']=YOUR_EMAIL_HERE
br['session_password']=YOUR_PASSWORD_HERE
response=br.submit()
page=br.open('https://www.linkedin.com/vsearch/p?f_CC=10667')
html=page.read()
soup=BeautifulSoup(html)
text=soup.prettify()
text=text.encode("ascii", "ignore")
fo= open("website.html",'wb')
fo.write(text)
fo.close()

响应是这样的(我建议下载 HTML 并用浏览器查看):http://pastebin.com/7z1dPiTd

我不确定我是否正确使用了 open 函数;这可能是问题所在
无论如何,先谢谢了!如果您有任何问题,请告诉我。

最佳答案

好吧,
在做了一些研究之后,似乎 Mechanize 没有等待 Javascript 加载,因此我没有下载正确的信息。
Mechanize 没有提供等待 Javascript 的方法,所以我必须使用风车或 Selenium
看看这些:
here

here

关于python - 为什么 Mechanize 没有下载完整页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23304453/

相关文章:

ruby - 使用 Mechanize 获取链接的 "href"

python - 如何处理 HTML 表单中的换行符?

python - 如何使用 EnumMeta Python 3.6 获取将成员作为枚举的新枚举

python - Python Pip Install Wheel 把文件放在哪里

beautifulsoup查找带有和不带有正则表达式的文本

Python 使用 BeautifulSoup 将 url 写入文件

ruby - Mechanize 和 NTLM 身份验证

python - 在另一个函数调用中调用一个函数

python - gunicorn 会导致 exscript/paramiko 出现问题吗?

python - 如何使用 BeautifulSoup (python) 防止关闭错误 HTML 中的标签?