python - 从 url 下载 csv 并使其成为数据框 python pandas

标签 python pandas jupyter-notebook

我是 python 的新手,所以在这里需要一些帮助。我有一个带有 url 列的数据框和一个链接,允许我为每个链接下载 CSV。我的目标是创建一个循环/任何有效的方法,以便我可以运行一个命令,该命令允许我下载、读取 csv 并为每一行创建一个数据框。任何帮助,将不胜感激。我在下面附上了部分数据框。如果链接不起作用(它可能不会,您可以将其替换为来自“https://finance.yahoo.com/quote/GOOG/history?p=GOOG”(任何其他公司)的链接,然后导航到下载 csv 并使用该链接。

数据框:

Symbol         Link
YI             https://query1.finance.yahoo.com/v7/finance/download/YI?period1=1383609600&period2=1541376000&interval=1d&events=history&crumb=PMHbxK/sU6E
PIH            https://query1.finance.yahoo.com/v7/finance/download/PIH?period1=1383609600&period2=1541376000&interval=1d&events=history&crumb=PMHbxK/sU6E
TURN           https://query1.finance.yahoo.com/v7/finance/download/TURN?period1=1383609600&period2=1541376000&interval=1d&events=history&crumb=PMHbxK/sU6E
FLWS           https://query1.finance.yahoo.com/v7/finance/download/FLWS?period1=1383609600&period2=1541376000&interval=1d&events=history&crumb=PMHbxK/sU6E

再次感谢。

最佳答案

有多种方法可以从 URL 获取 CSV 数据。从您的示例,即 Yahoo Finance,您可以复制 Historical 数据链接并在 Pandas 中调用它

...
HISTORICAL_URL = "https://query1.finance.yahoo.com/v7/finance/download/GOOG?period1=1582781719&period2=1614404119&interval=1d&events=history&includeAdjustedClose=true"

df = pd.read_csv(HISTORICAL_URL)

一般模式可能涉及像 requestshttpx 这样的工具来发出 GET|POST 请求,然后将内容获取到 io

import pandas as pd
import requests
import io

url = 'https://query1.finance.yahoo.com/v7/finance/download/GOOG'
params ={'period1':1538761929,
         'period2':1541443929,
         'interval':'1d',
         'events':'history',
         'crumb':'v4z6ZpmoP98',
        }

r = requests.post(url,data=params)
if r.ok:
    data = r.content.decode('utf8')
    df = pd.read_csv(io.StringIO(data))

为了获得参数,我只是跟随喜欢的并复制“?”之后的所有内容。检查它们是否匹配 ;)

结果: enter image description here

更新:


如果你可以直接在url中看到原始csv内容,只需将url传递给pd.read_csv 直接来自 url 的示例数据:

data_url ='https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/iris.csv'

df = pd.read_csv(data_url)

关于python - 从 url 下载 csv 并使其成为数据框 python pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53158452/

相关文章:

python - 创建 sqlalchemy 对象时循环字段

python - 作为没有信用卡的学生设置 Heroku 插件

python - 用于在python中连接数据excel数据的循环文件名?

python - 将 Pandas Dataframe 写入 DBF 文件?

python - 无法访问主目录中的文件(Jupyter Notebook)

python - 在 Jupyter Notebook 中调试 Python 代码的更好方法

python - 使用 XPath 在使用 python 的 <td> 单元格中获取文本

python - 如何在使用numpy分区排序后获取数组中 float 的索引

python - 如果坐标对不在列表中,则从数据框中删除

python - 尝试打开 Jupyter notebook 或 Spyder 时出现内核错误