我正在尝试抓取此 HTML 标题
<h2 id="p89" data-pid="89"><span id="page77" class="pageNum" data-no="77" data-before-text="77"></span>Tuesday, July 30</h2>
来自此网站:https://wol.jw.org/en/wol/h/r1/lp-e
我的代码:
from bs4 import BeautifulSoup
import requests
url = requests.get('https://wol.jw.org/en/wol/h/r1/lp-e').text
soup = BeautifulSoup(url, 'lxml')
textodiario = soup.find('header')
dia = textodiario.h2.text
print(dia)
它应该返回今天的日期,但它返回过去的一天:7 月 24 日星期三
最佳答案
目前我没有电脑可供测试,请仔细检查是否存在可能的错误。
您需要chromedriver for your platform too ,将其放在脚本的同一文件夹中。
我的想法是使用 selenium 获取 HTML,然后解析它:
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
url = "https://wol.jw.org/en/wol/h/r1/lp-e"
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=options)
driver.get(url)
time.sleep(3)
page = driver.page_source
driver.quit()
soup = BeautifulSoup(page, 'html.parser')
textodiario = soup.find('header')
dia = textodiario.h2.text
print(dia)
关于python - 如何从该网页中抓取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57271349/