python - 如何将从网站抓取的所有数据保存在 pandas 数据框中?

标签 python pandas dataframe web-scraping

我编写了一段代码,使用 BeautifulSoup 和预先设计的库从网页中抓取联系信息 CommonRegex这基本上是抓取美国地址信息的正则表达式。虽然我能够提取列表形式的信息并将其转换为 pandas 数据帧,但我无法保存列表中存在的所有值。这是我编写的代码:

import pandas as pd
from commonregex import CommonRegex
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.thetaxshopinc.com/pages/contact-tax-accountant-brampton'
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')

for link in soup.find_all('p'):
    df = CommonRegex()
    df1 = df.street_addresses(link.get_text())
    df2 = df.phones(link.get_text())
    df3 = df.emails(link.get_text())
    for i in df1:
        dfr = pd.DataFrame([i], columns = ['Address'])
    for j in df2:
        dfr1 = pd.DataFrame([j], columns = ['Phone_no'])
        dfr1['Phone_no'] = dfr1['Phone_no'].str.cat(sep=', ')
        dfr1.drop_duplicate(inplace = True)
    for k in df3:
        dfr2 = pd.DataFrame([k], columns = ['Email'])

dfc = pd.concat([dfr, dfr1, dfr2], axis = 1)

这是我得到的结果:-

enter image description here

但是,由于正则表达式正在提取 电话号码 的 3 个值,即

enter image description here

结果应该是这样的:- enter image description here

我不知道如何解决这个问题,如果你们能帮助我,那就太好了。

最佳答案

这应该做:

import pandas as pd
from commonregex import CommonRegex
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.thetaxshopinc.com/pages/contact-tax-accountant-brampton'
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')

dict_data = {'address':[], 'phone_no': [], 'email': []
}

crex = CommonRegex()

for link in soup.find_all('p'):

    str_add = crex.street_addresses(link.get_text())
    phone = crex.phones(link.get_text())
    email = crex.emails(link.get_text())

    if str_add:
        dict_data['address'].append(str_add[0])
    if phone:
        dict_data['phone_no'].append(', '.join(phone))
    if email:
        dict_data['email'].append(email[0]) 

df = pd.DataFrame(dict_data)

关于python - 如何将从网站抓取的所有数据保存在 pandas 数据框中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61386636/

相关文章:

python mysql中将订单号输入到表id中

python - 卡尔曼滤波器(一维):几种方法?

python - 带有单个元素的 zip 列表

python - Python Pandas-基于字符串中的子字符串合并

python - Pandas crosstab() 函数与包含 NaN 值的数据框的混淆行为

python - 如何在非默认的python版本上安装库模块

python - 将 CSV 的唯一第 0 个元素分组为 python 或 hive 中唯一的第 i 个元素

python - 如何删除数据框中间隔之间的值

python - pandas.to_datetime : which format to choose?

python - 加载文件中的错误 ylabels