python-3.x - BeautifulSoup 发现所有表都是空的

标签 python-3.x web-scraping beautifulsoup

我正在尝试从 NOAA 网站上抓取一个非常简单的表格:https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat

该表是一个“.dat”文件,该网站似乎是 html 格式。当我使用BeautifulSoup读取内容时,我可以很好地看到内容。但是,当我使用“find_all”或“find”搜索表时,我什么也没得到,即[]。

这是我的初始代码:

page = requests.get('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat')
soup = BeautifulSoup(page.content,'html.parser') #'html5lib' #'html.parser' 'lxml'
table = soup.find_all('table')     

当我输入 soup 时,我得到以下信息: enter image description here

但是,当我尝试将信息放入表格时,它显示为空白

table
>> []

我尝试了以下变体:

page = urllib.request.urlopen('https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat').read()

soup = BeautifulSoup(page,'lxml')
soup = BeautifulSoup(page,'html5lib') #'' #''

table = soup.findAll('table') 
table = soup.findAll("div",{"class":"line-gutter-backdrop"}) 
table = soup.find_all(True)

但是,表格仍然是空白的。

我发现这个问题看起来很相似:Cannot find table using Python BeautifulSoup

但我的表格不是用 JavaScript 编写的(据我所知)。这只是文本。

我对数据抓取非常陌生,真的不知道为什么这个简单的例子不起作用。非常感谢任何帮助。谢谢。

最佳答案

您找不到 table 标记,因为没有,您必须找到 pre 标记。

您可以尝试此代码片段,它将获取表格内的文本:

from bs4 import BeautifulSoup as soup
import urllib

url = 'https://www1.ncdc.noaa.gov/pub/data/cdo/samples/PRECIP_HLY_sample_ascii.dat'

response = urllib.request.urlopen(url)
html = response.read()

page_soup = soup(html,'lxml')
table = page_soup.find('p')
print(table.text)

输出:

STATION           STATION_NAME                                       ELEVATION  LATITUDE   LONGITUDE  DATE           HPCP     Measurement Flag Quality Flag 
----------------- -------------------------------------------------- ---------- ---------- ---------- -------------- -------- ---------------- ------------ 
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100101 00:00    99999                ]              
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100101 01:00        0                g              
COOP:310301       ASHEVILLE NC US                                    682.1      35.5954    -82.5568   20100102 06:00        1     

关于python-3.x - BeautifulSoup 发现所有表都是空的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55398210/

相关文章:

python - 如何使用python和beautifulsoup获取title属性?

python-3.x - 如何使多个对象同时工作?

python - Selenium 无法使用正确的 chromedriver 版本和 chrome 版本

python-3.x - 无法将网络抓取输出作为字典返回

python - Beautiful Soup 使用正则表达式查找标签?

Python BeautifulSoup 从结果中提取文本

python - sklearn 'preprocessor' 导入时子模块不可用

python - 尝试将多个 .csv 读取到单独的数据框列中

python - 如何在python中将包含单引号或双引号的数据插入数据库?

python - 如何从 BeautifulSoup 中的 onclick 值获取链接?