我想从丹麦公司注册处 (csv register) 下载指定公司的所有财务报告。一个例子可能是 Chr。 Hansen Holding 在以下链接中:
具体来说,我想在“Regnskaber”(=财务报告)选项卡下下载所有 PDF。我以前没有使用 Python 进行网页抓取的经验。我尝试使用 BeautifulSoup,但鉴于我不存在的经验,我无法从响应中找到正确的搜索方式。
以下是我尝试过的方法,但没有打印任何数据(即没有找到任何 pdf)。
from urllib.parse import urljoin
from bs4 import BeautifulSoup
web_page = "https://datacvr.virk.dk/data/visenhed?
enhedstype=virksomhed&id=28318677&soeg=chr%20hansen&type=undefined&language=da"
response = requests.get(web_page)
soup = BeautifulSoup(response.text)
soup.findAll('accordion-toggle')
for link in soup.select("a[href$='.pdf']"):
print(link['href'].split('/')[-1])
我们将不胜感激所有帮助和指导。
最佳答案
你应该使用 select 而不是 findAll
from urllib.parse import urljoin
from bs4 import BeautifulSoup
web_page = "https://datacvr.virk.dk/data/visenhed?
enhedstype=virksomhed&id=28318677&soeg=chr%20hansen&type=undefined&language=da"
response = requests.get(web_page)
soup = BeautifulSoup(response.text, 'lxml')
pdfs = soup.select('div[id="accordion-Regnskaber-og-nogletal"] a[data-type="PDF"]')
for link in pdfs:
print(link['href'].split('/')[-1])
关于python - 从网页中抓取 pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60903209/