python - 如何用python写一个不间断的爬虫并在服务器上运行?

标签 python ubuntu service web-scraping

<分区>

我想用 python 编写一个 scraper 来抓取一些 url 并抓取和保存数据。 我知道如何将它写成一个简单的程序。我正在寻找一种方法将其作为服务部署在我的虚拟服务器(运行 ubuntu)上,以使其不间断爬行。 谁能告诉我我该怎么做?

最佳答案

您要做的是守护进程。 This will be helpful in creating a daemon.

守护进程将允许它在后台模式下运行,因此只要服务器正在运行(即使用户未登录)它就会继续运行。

这是一个将时间写入文件的示例守护进程。

import daemon
import time

def do_something():
    while True:
        with open("/tmp/current_time.txt", "w") as f:
            f.write("The time is now " + time.ctime())
        time.sleep(5)

def run():
    with daemon.DaemonContext():
        do_something()

if __name__ == "__main__":
    run()

关于python - 如何用python写一个不间断的爬虫并在服务器上运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25309102/

相关文章:

ubuntu - 使用 Phusion Passenger (Nginx) 加密导致 SSL 握手中止

java - 如何触发关闭 Guava AbstractScheduledService?

windows - 在用户文件夹中安装 PostgreSQL 数据

Python:使用 OpenCV 从左上到右下对项目进行排序

python - 我可以填写输入字段并单击表单中没有的提交按钮吗?

python - C 数组基本操作和操作与 Python 的比较

python - pypi 软件包未安装所有文件?

php - mysql_real_escape_string 未定义

http - node.js 安装错误需要 (‘http’ );

android - 当服务停止时,服务启动的 AsyncTask 是否完成?