Python scrapy 蜘蛛

标签 python web-scraping scrapy

我想使用这个过滤器从网站 http://www.quoka.de/immobilien/bueros-gewerbeflaechen 抓取数据:

<a class="t-bld" rel="nofollow" href="javascript:qsn.set('classtype','of',1);">nur Angebote</a>

如何使用scrapy设置这个过滤器?

最佳答案

您可以使用Beautifulsoupurllib2解析特定的网站。这是您想要根据您编写的过滤器解析或抓取的数据的 python 实现。

from BeautifulSoup import BeautifulSoup
import urllib2

def main1(website):
    data_list = []
    web =urllib2.urlopen(website).read()
    soup = BeautifulSoup(web)
    description = soup.findAll('a', attrs={'rel':'nofollow'})
    for de in description:
        data_list.append(de.text)
    return data_list

print main1("http://www.quoka.de/immobilien/bueros-gewerbeflaechen")

如果你想解析其他数据,比如下面的描述:

enter image description here

def main(website):
    data_list = []
    web =urllib2.urlopen(website).read()
    soup = BeautifulSoup(web)
    description = soup.findAll('div', attrs={'class':'description'})
    for de in description:
        data_list.append(de.text)
    return data_list

print main("http://www.quoka.de/immobilien/bueros-gewerbeflaechen") #this is the data of each section

关于Python scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31093670/

相关文章:

java - 从java调用时bash脚本不等待命令完成

python - 如果页面下方存在某种链接循环,如何从网站中抓取数据?

python - 退出 : scrapy (exit status 0; not expected)

python - python 中有独立的 pgp 实现吗?

python - .seek 也不适用于重置包含字符串的 csv.reader,还可以使用其他什么方法?

python - 计算候选人被投票的次数

python - 在 Mechanize 中获取表单控件的标签

python - 如何使用 python 抓取谷歌地图

xpath - 以编程方式将 Microsoft Teams channel 中的聊天消息导出为 Word 或 pdf,无需管理员角色、权限或权限

python - 为什么在 Selenium 中等待元素加载后元素仍未出现?