python - 如何使用 Python 每天抓取一次每日新闻?

标签 python html machine-learning web-scraping information-retrieval

我正在尝试构建一个需要来自多个网站的每日新闻提要的应用程序。一种方法是使用 BeautifulSoup Python 库。然而,这对于将新闻放在一个静态页面上的页面很有用。

让我们考虑像 http://www.techcrunch.com 这样的网站.他们只有一个标题,要了解更多新闻,您需要单击“阅读更多”。对于其他几个新闻网站,也是类似的。我如何提取此类信息并将其转储到文件 txt/.dmp 或任何其他类型的文件中?我应该使用什么工具?我应该采用什么方法在 Python 中实现它?

我需要这个脚本每天一次从多个网站自动下载新闻,并将其存储在一个文件中,其中包含标题、日期、内容等类别。我会在 apache2 服务器上上传这个脚本。有什么建议吗?

最佳答案

How do I extract such information and dump it in a file- txt/.dmp or any other kind of file? What tool should I use?

for more news you need to click on "Read more".

您可能会利用的工具是作为其纯浏览器自动化的 Selenuim 或 iMacros。

  1. Here是在服务器端的 Python 中利用 Selenium 的示例。
  2. Here是一篇关于使用 iMacros 进行数据提取的帖子(和视频)。由于您每天只需要一次,因此您可以安排在 Win 或 Mac 中定期运行它。

关于python - 如何使用 Python 每天抓取一次每日新闻?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29147449/

相关文章:

python - 使用 importlib.import_module 处理导入模块引发的异常

javascript - 使用javascript查找未标记的元素

javascript - 如何在 JSON 对象中搜索特定字符串值?

python - 如何将函数(BigramCollocationFinder)应用于 Pandas DataFrame

python - Q-Learning AI 无法识别简单的模式

python - 通过嵌套Python字典进行高效迭代

python - 如何使用 Sphinx 记录 Python 包

python - 如何关闭requests.Session()?

html - 为什么我的 div 没有高度?

machine-learning - 高偏差卷积神经网络不会随着更多层/滤波器而得到改善