python - 如何使用beautifulsoup提取html?

标签 python beautifulsoup

HTML 源代码是

html = """
<td>
 <a href="/urlM5CLw" target="_blank">
  <img alt="I" height="132" src="VZhAy" width="132"/>
 </a>
 <br/>
 <cite title="mac-os-x-lion-icon-pack.en.softonic.com">
  mac-os-x-lion-icon-pac...
 </cite>
 <br/>
 <b>
  Mac
 </b>
 OS X Lion Icon Pack's
 <br/>
 535 × 535 - 135k - png
</td>"""

我的Python代码

soup = BeautifulSoup(html)
text = soup.find('td').renderContents()

通过这些代码我可以得到类似的字符串

<a href="/urlM5CLw" target="_blank"><img alt="I" height="132" src="VZhAy" width="132"/></a><br/><cite title="mac-os-x-lion-icon-pack.en.softonic.com">mac-os-x-lion-icon-pac...</cite><br/><b>Mac</b> OS X Lion Icon Pack's<br/>535 × 535 - 135k - png

但我不想要<a>....</a> ,我只需要:

<br/><cite title="mac-os-x-lion-icon-pack.en.softonic.com">mac-os-x-lion-icon-pac...</cite><br/><b>Mac</b> OS X Lion Icon Pack's<br/>535 × 535 - 135k - png

最佳答案

尝试删除<a>标记,然后获取您想要的内容。

>>> soup.find('a').extract()
>>> text = soup.find('td').renderContents()
>>> text
'<br/><cite title="mac-os-x-lion-icon-pack.en.softonic.com">mac-os-x-lion-icon-pac...</cite><br/><b>Mac</b> OS X Lion Icon Pack's<br/>535 \xd7 535 - 135k - png'

关于python - 如何使用beautifulsoup提取html?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33296290/

相关文章:

python - Airflow SSH 运算符(operator)如何指定身份验证类型

python - 为 pandas 数据框列向量化 HumanName 库

python - 根据列值在数据框中添加空白单元格(excel : insert cell and shift right)

python - 控制洗牌距离

c# - BeautifulSoup 和 ASP.NET/C#

html - 如何使用python从html文件中抓取数据

Python 2.7 : Names of unicode representations

python - ANSI、ASCII、Unicode 和与 Python 的编码混淆

python - BeautifulSoup - lxml 和 html5lib 解析器抓取差异

python - 使用 BeautifulSoup 抓取 aspx 网站