Python 使用 Pandas/Urllib 下载文件

我正在尝试使用 Python 3.x 下载 CSV 文件文件路径为:https://www.nseindia.com/content/fo/fo_mktlots.csv

我找到了三种方法。在这三种方法中，只有一种方法有效。我想知道为什么或我做错了什么。

方法一:(不成功)

import pandas as pd

mytable = pd.read_table("https://www.nseindia.com/content/fo/fo_mktlots.csv",sep=",")
print(mytable)

但是我收到以下错误:

- HTTPError: HTTP Error 403: Forbidden

方法二:(不成功)

from urllib.request import Request, urlopen

url='https://www.nseindia.com/content/fo/fo_mktlots.csv'

url_request  = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(url_request ).read()

和之前一样的错误:

 - HTTPError: HTTP Error 403: Forbidden

方法三:(成功)

import requests
import pandas as pd

url = 'https://www.nseindia.com/content/fo/fo_mktlots.csv'

r = requests.get(url)
df = pd.read_csv(StringIO(r.text))

我还可以使用 Excel VBA 打开文件，如下所示:

Workbooks.Open Filename:="https://www.nseindia.com/content/fo/fo_mktlots.csv"

请问还有其他方法可以做到吗？

最佳答案

该网站试图防止内容抓取。

问题不在于您做错了什么，而在于网络服务器的配置方式以及它在各种情况下的行为方式。

但是要克服抓取保护，创建定义明确的 http 请求 header ，最好的方法是发送一个完整的 HTTP header 集，一个真正的网络浏览器会这样做。

这里它适用于最小集合:

>>> myHeaders = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'https://www.nseindia.com', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
>>> url_request  = Request(url, headers=myHeaders)
>>> html = urlopen(url_request ).read()
>>> len(html)
42864
>>>

您可以将 urllib 传递给 pandas:

>>> import pandas as pd
...
>>> url_request  = Request(url, headers=myHeaders)
>>> data = urlopen(url_request )
>>> my_table = pd.read_table(data)
>>> len(my_table)
187

关于Python 使用 Pandas/Urllib 下载文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41919181/

Python 使用 Pandas/Urllib 下载文件

上一篇：python - 十六进制文件头，魔数(Magic Number)，python

下一篇：python - Python 中的点符号。方法应该在对象之前还是之后？