我正在尝试构建一个需要来自多个网站的每日新闻提要的应用程序。一种方法是使用 BeautifulSoup Python 库。然而,这对于将新闻放在一个静态页面上的页面很有用。
让我们考虑像 http://www.techcrunch.com 这样的网站.他们只有一个标题,要了解更多新闻,您需要单击“阅读更多”。对于其他几个新闻网站,也是类似的。我如何提取此类信息并将其转储到文件 txt/.dmp 或任何其他类型的文件中?我应该使用什么工具?我应该采用什么方法在 Python 中实现它?
我需要这个脚本每天一次从多个网站自动下载新闻,并将其存储在一个文件中,其中包含标题、日期、内容等类别。我会在 apache2 服务器上上传这个脚本。有什么建议吗?
最佳答案
How do I extract such information and dump it in a file- txt/.dmp or any other kind of file? What tool should I use?
for more news you need to click on "Read more".
您可能会利用的工具是作为其纯浏览器自动化的 Selenuim 或 iMacros。
关于python - 如何使用 Python 每天抓取一次每日新闻?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29147449/