python - 网站 map 爬虫中永无休止的 for 循环

标签 python web-crawler

我正在开发我的第一个 Python 项目。我想做一个爬虫,访问一个网站以提取其所有链接(深度为2)。它应该将链接存储在两个列表中,这两个列表形成一个一对一寄存器,将源链接与它们包含的相应目标链接相关联。然后它应该创建一个包含两列(目标和源)的 csv 文件,以便我可以使用 gephi 打开它以创建显示站点地形结构的图表。

代码在代码执行部分的 for 循环处崩溃,它永远不会停止提取链接......(我尝试过一个相当小的博客,它永远不会结束)。问题是什么?怎么解决呢?

需要考虑的几点: - 我对编程和Python真的很陌生,所以我意识到我的代码一定是非常不Python的。另外,由于我一直在寻找构建代码和解决我的问题的方法,所以它有点不完整,抱歉。感谢您的帮助!

myurl = raw_input("Introduce URL to crawl => ")
Dominios = myurl.split('.')
Dominio = Dominios[1]

#Variables Block 1
Target = []
Source = []
Estructura = [Target, Source]
links = []

#Variables Block 2
csv_columns = ['Target', 'Source']
csv_data_list = Estructura
currentPath = os.getcwd()
csv_file = "crawleo_%s.csv" % Dominio


# Block 1 => Extract links from a page
def page_crawl(seed):
    try:
        for link in re.findall('''href=["'](.[^"']+)["']''', urllib.urlopen(seed).read(), re.I):
            Source.append(seed)
            Target.append(link)
            links.append(link)
    except IOError:
        pass

# Block 2 => Write csv file
def WriteListToCSV(csv_file, csv_columns, csv_data_list):
try:
        with open(csv_file, 'wb') as csvfile:
            writer = csv.writer(csvfile, dialect='excel', quoting=csv.QUOTE_NONNUMERIC)
            writer.writerow(csv_columns)
            writer.writerows(izip(Target, Source))
    except IOError as (errno, strerror):
            print("I/O error({0}): {1}".format(errno, strerror))
    return

# Block 3 => Code execution
page_crawl(myurl)
seed_links = (links)

for sublink in seed_links:        # Problem is with this loop
    page_crawl(sublink)
    seed_sublinks = (links)
## print Estructura               # Line just to check if code was working

#for thirdlinks in seed_sublinks: # Commented out until prior problems are solved
#   page_crawl(thirdlinks)

WriteListToCSV(csv_file, csv_columns, csv_data_list)

最佳答案

seed_linkslinks 指向同一列表。因此,当您在 page_crawl 函数中向 links 添加元素时,您也在扩展 for 循环所循环的列表。您需要做的是clone the list您在其中创建 seed_links

这是因为 Python 通过引用传递对象。即多个变量可以以不同的名称指向同一个对象!

如果您想亲眼看到这一点,请尝试在 for 循环内print sublink。您会注意到打印的链接比您最初输入的链接多。您可能还会注意到您正在尝试循环整个网络:-)

关于python - 网站 map 爬虫中永无休止的 for 循环,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34877918/

相关文章:

r - 使用 R 进行网页抓取

python - virt-manager 无法在 ubuntu 上运行

python - 使用 gunicorn 核心转储时 GDB 为空回溯

python - 配置pyglfw

elasticsearch - 当之前的 "FETCHED"url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么?

web-crawler - 如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作?

python - Scrapy上传文件

RCurl 不检索网站的完整源文本 - 链接丢失?

python - 使用 scipy.weave.inline 遍历数组数组

python - 返回范围内一组数字的所有最小公倍数