python - BeautifulSoup 在 Amazon EC2 机器上表现不同

标签 python python-2.7 amazon-ec2 web-scraping beautifulsoup

我正在运行以下脚本:

from bs4 import BeautifulSoup
import urllib2
import sys

print sys.version

url = 'https://www.google.com/finance'
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)

trends_tag = soup.find('div', {'id': 'topmovers'})

tags = trends_tag.find_all('td', 'change chg')
print len(tags)

tag = tags[0]
print 'Tag: ' + tag.text

在我的电脑上,输出是:

2.7.8 (default, Jun 30 2014, 16:03:49) [MSC v.1500 32 bit (Intel)]
11
Tag: 33.24%

在 EC2 机器上,输出是:

2.7.8 (default, Jun 30 2014, 16:03:49) [MSC v.1500 32 bit (Intel)]
11
Tag: 33.24%
12.18B


CLX

The Clorox Co
7.35%
11.67B


THOR

Thoratec Corporation
6.12%
1.47B


FOE

Ferro Corporation
6.03%
1.17B


NORD

Nord Anglia Education Inc
5.88%
1.70B


LosersChange
Mkt Cap



CRR

CARBO Ceramics Inc.
-16.10%
1.95B


CMCT

CIM Commercial Trust Corp
-10.54%
1.84B


HLF

Herbalife Ltd.
-10.31%
4.11B


INVN

InvenSense Inc
-10.10%
2.08B


TRS

TriMas Corp
-9.99%
1.34B

我已将两台机器更新为相同的 python 版本。虽然安装的软件包有点不同。我的机器:

>pip freeze
PIL==1.1.7
beautifulsoup4==4.3.2
colorama==0.3.1
cssselect==0.9.1
frida==1.6.0
lxml==3.4.0
newspaper==0.0.7
numpy==1.8.1
pefile==1.2.10-139
pudb==2013.5.1
pygments==1.6
requests==2.4.1
scikit-learn==0.15-git
urwid==1.2.0
xlrd==0.9.2
xlwt==0.7.5

EC2 机器:

>pip freeze
beautifulsoup4==4.3.2

似乎 find_all 返回的标签比应有的大得多。此外,在运行时 print tags[0]我得到:

我的机器:

<td class="change chg">33.24%
</td>

在 EC2 机器上:

<td class="change chg">33.24%
<td class="mktCap">12.18B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:CLX&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="CLX">CLX</a>
<td class="name">
<a href="/finance?q=NYSE:CLX&amp;ei=lkwhVJDfJKjeiALmvYHACA">The Clorox Co</a>
<td class="change chg">7.35%
<td class="mktCap">11.67B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:THOR&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="THOR">THOR
</a>
<td class="name">
<a href="/finance?q=NASDAQ:THOR&amp;ei=lkwhVJDfJKjeiALmvYHACA">Thoratec Corporat
ion</a>
<td class="change chg">6.12%
<td class="mktCap">1.47B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:FOE&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="FOE">FOE</a>
<td class="name">
<a href="/finance?q=NYSE:FOE&amp;ei=lkwhVJDfJKjeiALmvYHACA">Ferro Corporation</a
>
<td class="change chg">6.03%
<td class="mktCap">1.17B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:NORD&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="NORD">NORD</
a>
<td class="name">
<a href="/finance?q=NYSE:NORD&amp;ei=lkwhVJDfJKjeiALmvYHACA">Nord Anglia Educati
on Inc</a>
<td class="change chg">5.88%
<td class="mktCap">1.70B
<tr><td style="height:.7em">
<tr class="colHeader">
<td class="title chr">Losers<td class="change">Change
<td class="mktCap">Mkt Cap
</td></td></td></tr>
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:CRR&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="CRR">CRR</a>
<td class="name">
<a href="/finance?q=NYSE:CRR&amp;ei=lkwhVJDfJKjeiALmvYHACA">CARBO Ceramics Inc.<
/a>
<td class="change chr">-16.10%
<td class="mktCap">1.95B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:CMCT&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="CMCT">CMCT
</a>
<td class="name">
<a href="/finance?q=NASDAQ:CMCT&amp;ei=lkwhVJDfJKjeiALmvYHACA">CIM Commercial Tr
ust Corp</a>
<td class="change chr">-10.54%
<td class="mktCap">1.84B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:HLF&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="HLF">HLF</a>
<td class="name">
<a href="/finance?q=NYSE:HLF&amp;ei=lkwhVJDfJKjeiALmvYHACA">Herbalife Ltd.</a>
<td class="change chr">-10.31%
<td class="mktCap">4.11B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:INVN&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="INVN">INVN</
a>
<td class="name">
<a href="/finance?q=NYSE:INVN&amp;ei=lkwhVJDfJKjeiALmvYHACA">InvenSense Inc</a>
<td class="change chr">-10.10%
<td class="mktCap">2.08B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:TRS&amp;ei=lkwhVJDfJKjeiALmvYHACA" title="TRS">TRS</a
>
<td class="name">
<a href="/finance?q=NASDAQ:TRS&amp;ei=lkwhVJDfJKjeiALmvYHACA">TriMas Corp</a>
<td class="change chr">-9.99%
<td class="mktCap">1.34B
<tr><td style="height:.7em">
</td></tr></td></td></td></td></tr></td></td></td></td></tr></td></td></td></td>
</tr></td></td></td></td></tr></td></td></td></td></tr></td></tr></td></td></td>
</td></tr></td></td></td></td></tr></td></td></td></td></tr></td></td></td></td>
</tr></td></td>

注意 </td></tr>最后 - 就像它出于某种原因合并了分支。

是什么导致了这样的差异?

很抱歉这个问题很长

最佳答案

区别在于lxml。 BeautifulSoup 在安装时使用 lxml 作为默认解析器,在未安装时回退到标准库 HTMLParser 模块。

您输入的 HTML 格式不正确,当出现此类 HTML 时,允许解析器“充分利用它”。 lxmlHTMLParser 使用不同的方法来修复 HTML。

在创建 BeautifulSoup() 实例时,您可以通过在第二个参数中命名来强制 BeautifulSoup 使用特定的解析器,参见 Specifying a parser to use :

soup = BeautifulSoup(page, 'html.parser')

关于python - BeautifulSoup 在 Amazon EC2 机器上表现不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25992953/

相关文章:

python - 遍历字典列表

python - Pandas 时间戳索引到日期字符串列表

python - 使用用户定义的函数提取、修改和粘贴字符串

tomcat - 多个 Tomcat 实例在 EC2 实例上有意义吗?

python - Django 模型中的动态选择字段

google-app-engine - 使用 Flask (python) 从 GAE 数据存储服务图像

python - 在选项卡之间切换并关闭窗口中的选项卡会出错

python - 使用多部分键构建字典

linux - 如何确定我的进程是 CPU/内存密集型还是磁盘密集型?

jenkins - 持续集成 : running Jenkins Build on newly created EC2 Instance using AWS Cloudformation+OpsWorks, 什么是最佳实践?