所以我有一个包含表单的 html 页面,以及包含多行产品的表单内的表格。
我现在已经到了循环遍历表格行的地步,并且在每个循环中我都获取了所有表格单元格。
for tr in t.findAll('tr'):
td = tr.findAll('td')
现在我想从第一个td抓取图片src url。
HTML 看起来像:
<tr>
<td ...>
<a href ... >
<img ... src="asdf/asdf.jpg" .. >
</a>
</td>
...
</tr>
我该怎么做呢?我一直在考虑正则表达式。
我试过:
td[0].a.image.src
但这不起作用,因为它说没有属性“src”。
最佳答案
使用
td[0].a.img['src']
我想你在问题中对 img
使用 image
只是一个转录错误,但重要的一点是,在 BeautifulSoup 中,为了访问标签的您使用索引符号的 HTML 属性(如我上面代码片段中的 ['src']
),而不是点语法——点语法符号实际上是沿着树向下进行(就像它正在做的那样)上面的两个点,一个在 a
和 img
之前)。
关于python - 帮助使用 BeautifulSoup 从表格单元格获取图像 src,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3376507/