python - 如何用python写一个不间断的爬虫并在服务器上运行？

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，请描述问题以及迄今为止为解决该问题所做的工作。

关闭 8 年前。

我想用 python 编写一个 scraper 来抓取一些 url 并抓取和保存数据。我知道如何将它写成一个简单的程序。我正在寻找一种方法将其作为服务部署在我的虚拟服务器(运行 ubuntu)上，以使其不间断爬行。谁能告诉我我该怎么做？

最佳答案

您要做的是守护进程。 This will be helpful in creating a daemon.

守护进程将允许它在后台模式下运行，因此只要服务器正在运行(即使用户未登录)它就会继续运行。

这是一个将时间写入文件的示例守护进程。

import daemon
import time

def do_something():
    while True:
        with open("/tmp/current_time.txt", "w") as f:
            f.write("The time is now " + time.ctime())
        time.sleep(5)

def run():
    with daemon.DaemonContext():
        do_something()

if __name__ == "__main__":
    run()

关于python - 如何用python写一个不间断的爬虫并在服务器上运行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25309102/

上一篇：python - 间歇性 Python 线程错误， "main thread is not in main loop"

下一篇：python - 将特征名称更新为 scikit TFIdfVectorizer

java - 如何触发关闭 Guava AbstractScheduledService？

windows - 在用户文件夹中安装 PostgreSQL 数据

Python:使用 OpenCV 从左上到右下对项目进行排序

python - 我可以填写输入字段并单击表单中没有的提交按钮吗？

python - C 数组基本操作和操作与 Python 的比较

python - pypi 软件包未安装所有文件？

php - mysql_real_escape_string 未定义

http - node.js 安装错误需要 (‘http’ )；

android - 当服务停止时，服务启动的 AsyncTask 是否完成？