python - 逐行提取符号

标签 python web-scraping

我有一个问题,从仅由“|”分隔的各个换行符中提取具有不同长度的字符串。和空间。看看下面的链接

http://ftp.nasdaqtrader.com/dynamic/SymDir/nasdaqlisted.txt

我正在尝试提取上述链接第一列下的所有公司符号。然而,我想不出一个逻辑循环可以做到这一点,并以一种便于将来提取的方式存储它。

我希望任何pr0s都可以发表意见!

编辑:

您好,我了解您的一些保留意见。我对如何逻辑地思考解决方案感到非常满意。

最佳答案

我希望这对您直接从文本页面抓取数据的情况有所帮助:

import requests

response = requests.get('http://ftp.nasdaqtrader.com/dynamic/SymDir/nasdaqlisted.txt')
document = response.text.splitlines()

for line in document[1:-1]:      #This helps you skip unnecessary lines
    data = line.split('|')
    symbol = data[0]
    print(symbol)

您可以跳过文档的第一行和最后一行,因为它们与您要查找的符号无关。此外,splitlines 会为您创建一个行列表,您可以使用列表索引来跳过第一行和最后一行。

关于python - 逐行提取符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54860403/

相关文章:

python - 使用python生成促销代码

python - 如何从nd数组python中删除空格

python - Fluentd 发布到标准输出但不发布到 Elasticsearch

python - 使用带有 javascript 页面的 python 请求

python - 在 scrapy 中导出为 CSV 格式不正确

像 C++ std::endl 这样的 Python 换行常量

python - 版本和软件名称的正则表达式

css - 网络抓取(抓取)时, "li: nth-child (n)"如何将数字 n 增加 +1?

python - Python 请求(AJAX 请求)数据丢失

python - 即使收到 200 状态代码也重试 Scrapy 请求