python - 从网站抓取表格时遇到问题?

标签 python xpath web-scraping scrapy

我正在从该网站提取表格。虽然我匹配了 xpath 并发现了表的字段,但我无法从网站中提取任何内容,这就是我的蜘蛛的样子:

# -*- coding: utf-8 -*-
import scrapy
from table.items import TableItem


class Table(scrapy.Spider):
    name = "table1"
    start_urls = (
        'wesite.com',
    )
    #//div[4]//div[1]//div[1]//table[1]
    #
    def parse(self, response):
        sites = response.xpath('//*[@id="tabs-1"]/table//tr')[1:-2]
        print('\n***********************************\n',sites)

        for site in sites:
            item = TableItem()
            item['col1'] = site.xpath('td[1]/text()').extract()
            item['col2'] = site.xpath('td[2]/text()').extract()
            yield item
            print('\n**********\n',item)

我想我的主要问题是这一行:

sites = response.xpath('//*[@id="tabs-1"]/table[1]/tr')

我实际上可以检索内容。然而,它有一个非常大的重复错误格式(它是畸形的)。知道如何获得 table 吗?

最佳答案

有时浏览器会在渲染时添加自己的 DOM 元素。对于您给定的网站,正确的 xpath 选择器是 response.xpath('//*[@id="tabs-1"]/table//tr') 来查找表格行。

已编辑:添加了从表中获取正确元素的代码

# -*- coding: utf-8 -*-
import scrapy
from table.items import TableItem


class Table(scrapy.Spider):
    name = "table1"
    start_urls = (
        'http://www.accessdata.fda.gov/scripts/drugshortages/default.cfm#tabs-1',
    )

    def parse(self, response):
        sites = response.xpath('//*[@id="tabs-1"]/table//tr')

        for site in sites:
            item = TableItem()
            item['col1'] = site.xpath('td/a/text()').extract_first()
            col2 = site.xpath('td/em/strong/text()')
            if col2:
                item['col2'] = site.xpath('td/em/strong/text()')[0].extract().strip()
            else:
                item['col2'] = 'Not Available'
            yield item

关于python - 从网站抓取表格时遇到问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40286349/

相关文章:

xpath - 在根节点中寻找 x 节点的第 n 个实例

python - 从无限滚动的网页获取所有文章链接?

Python Curses 处理窗口(终端)调整大小

python - Python 2.7 v.3 中的 Range()

xslt - 使用XPATH和当前属性名称的元素的XSLT值

python - 请求异常.InvalidURL : Failed to parse: <Response [200]> in python

python - 无法从每次单击时激活的类似容器的盒子中解析信息

python - 如何在不修改源代码的情况下检查 Winpdb Python 调试器中的返回值?

Python 图形框架 : trouble installing dependencies

xslt - 获取下一个根节点的名称及其路径的串联