javascript - 美丽汤/正则表达式 : Find specific value from href

标签 javascript python html regex beautifulsoup

使用下面的代码,并尝试查找 href 末尾的值。有没有办法提取 href,并在 BeutifulSoup/Regex 中的 page= 之后查找值?

from bs4 import BeautifulSoup
import requests
import json
import re

request = requests.get('https://www.goodreads.com/quotes/tag/fun?page=1')
soup = BeautifulSoup(request.text, 'html.parser')

findNext = soup.find("a", class_="next_page")
print(findNext)

获取此输出:

<a class="next_page" href="/quotes/tag/fun?page=2" rel="next">next »</a>

注意:想要从上面或任何其他可能出现的数字中提取2

最佳答案

您可以使用正则表达式查找页码:

from bs4 import BeautifulSoup
import re
request = requests.get('https://www.goodreads.com/quotes/tag/fun?page=1')
soup = BeautifulSoup(request.text, 'html.parser')
page_nums = re.findall('(?<=page\=)\d+', str(soup.find("a", class_="next_page")))[0]

输出:

2

关于javascript - 美丽汤/正则表达式 : Find specific value from href,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48470114/

相关文章:

javascript - 如何从 Javascript 中的 foreach 访问类变量

javascript - 带星号的负前瞻如何工作?

javascript - jQuery - 单击基于 css 类和链接名称的链接

javascript - js window.open 然后 print()

python - 无法打印正确解码的 readAllStandardOutput

python - 如何从雅虎获取历史ESG数据?

python - 在 Pandas 专栏中找到下一个工作日

html - div 中的内容而不破坏 div 的纵横比

javascript - 单击任何按钮应显示该按钮的正确编号

html - 文本背景颜色根据文本的形状和长度裁剪