javascript - 美丽汤/正则表达式 : Find specific value from href

标签 javascript python html regex beautifulsoup

使用下面的代码，并尝试查找 href 末尾的值。有没有办法提取 href，并在 BeutifulSoup/Regex 中的 page= 之后查找值？

from bs4 import BeautifulSoup
import requests
import json
import re

request = requests.get('https://www.goodreads.com/quotes/tag/fun?page=1')
soup = BeautifulSoup(request.text, 'html.parser')

findNext = soup.find("a", class_="next_page")
print(findNext)

获取此输出:

<a class="next_page" href="/quotes/tag/fun?page=2" rel="next">next »</a>

注意:想要从上面或任何其他可能出现的数字中提取2。

最佳答案

您可以使用正则表达式查找页码:

from bs4 import BeautifulSoup
import re
request = requests.get('https://www.goodreads.com/quotes/tag/fun?page=1')
soup = BeautifulSoup(request.text, 'html.parser')
page_nums = re.findall('(?<=page\=)\d+', str(soup.find("a", class_="next_page")))[0]

输出:

关于javascript - 美丽汤/正则表达式 : Find specific value from href，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48470114/

上一篇：html - 节点中持续元素的CSS选择器

下一篇：html - Bootstrap 4 使每列大小相等？

javascript - 带星号的负前瞻如何工作？

javascript - jQuery - 单击基于 css 类和链接名称的链接

javascript - js window.open 然后 print()

python - 无法打印正确解码的 readAllStandardOutput

python - 如何从雅虎获取历史ESG数据？

python - 在 Pandas 专栏中找到下一个工作日

html - div 中的内容而不破坏 div 的纵横比

javascript - 单击任何按钮应显示该按钮的正确编号

html - 文本背景颜色根据文本的形状和长度裁剪