python - 如何使用 Python 从网页中提取表格的内容?

标签 python python-3.x pandas web-scraping beautifulsoup

我在从网页中提取 kmz 和 zip 文件时需要帮助。以下代码能够提取表格,但不能提取表格内的文件和链接。我可以在我的代码中包含什么,以便输出表还包含链接和文件,而不仅仅是纯文本?

网页:

https://www.nhc.noaa.gov/gis/

代码:

import pandas as pd
url = 'https://www.nhc.noaa.gov/gis/'
result = pd.read_html(url)[0]
result

最佳答案

我会说使用 beautifulsoup (bs4) 而不是 pandas 来解析 html。

pip install beautifulsoup4 requests

然后就这么简单

import bs4
import requests

result = bs4.BeautifulSoup(requests.get('https://www.nhc.noaa.gov/gis/').content, features='html.parser')
for link in result.find('table').find_all('a'):
    print(link.attrs['href'])

关于python - 如何使用 Python 从网页中提取表格的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63215642/

相关文章:

python - Matplotlib:另一种颜色的形状内部

python - 等待一个有 for 循环语法错误的函数

python-3.x - fastai 学习者要求和批量预测

python - 2 天窗口的滚动总和

python - 当不是每个人都有中间名时,将名字解析为名字、中间名、姓氏

python - Postgres 中 'money' 和 'OID' 的 sqlalchemy 等效列类型是什么?

python - 按键对 Python 列表进行排序...同时检查字符串或 float ?

python-3.x - 如何使用 python 将 ffmpeg 输出直接存储到 s3 存储桶?

python - 使用 Python 将列中的值从 float 舍入到整数

python - 沿着 tensorflow 中给定张量的轴计算模式和模式计数