python - 美汤提取

标签 python html beautifulsoup html-parsing

这是html代码:

<ul>
   <li><a href="brands/acapulco-gold/141120">Acapulco Gold</a></li>
   <li><a href="brands/adam-lister/141223">Adam Lister</a></li>
   <li><a href="brands/adidas-x-raf-simons/125513">adidas x RAF SIMONS</a></li>

我想提取 10Deep、Acapulco Gold 等品牌，我该怎么做？

最佳答案

我无法使用 Beautifulsoup 做到这一点，但在等待其他答案时...您可以阅读每一行并检索您想要的文本

import urllib
import re

source = urllib.urlopen("https://www.jackthreads.com/ca/brands")
lines = source.readlines()

brand  = []
for link in lines[1797:2121]:
  find = re.findall(r'<li><a href="brands[^>]*?>(.*?)</a>', link)
  if len(find) > 0:
    brand.append(find[0])

print(brand[0:12])
#>['10Deep', 'Acapulco Gold', 'Adam Lister', 'AdNArt', 'Afends', 'Akomplice', 'Akribos XXIV', 'Alistare', 'Alpha Beta', 'Alpha Industries', 'Altamont', 'Alternative']

关于python - 美汤提取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29523880/

上一篇：python - 转换 statsmodels t 检验的数据框

下一篇：python - 使用字符串列表按列标签对 Pandas DataFrame 进行切片

相关文章：

javascript - 在没有内联脚本的情况下处理图像加载错误

python - 使用 beautifulsoup 从表单中提取隐藏值

python - 是否有使用列表实体打印消息的正确方法？

python - 如何添加两个嵌套的Python字典？

Php:任何用户输入字段和提交按钮仅更新最后一个字段

Python:如何将所有 'for loop' 输出作为一个变量解析到 mysql 更新查询

python - 将表抓取到列表中

python - 使用python(acora)查找包含关键字的行

python3如何设置单元测试中通过的测试

html - 修复了在 html 表格标题处滚动而不影响标题大小