python - 如何使用 Python 每天抓取一次每日新闻？

标签 python html machine-learning web-scraping information-retrieval

我正在尝试构建一个需要来自多个网站的每日新闻提要的应用程序。一种方法是使用 BeautifulSoup Python 库。然而，这对于将新闻放在一个静态页面上的页面很有用。

让我们考虑像 http://www.techcrunch.com 这样的网站.他们只有一个标题，要了解更多新闻，您需要单击“阅读更多”。对于其他几个新闻网站，也是类似的。我如何提取此类信息并将其转储到文件 txt/.dmp 或任何其他类型的文件中？我应该使用什么工具？我应该采用什么方法在 Python 中实现它？

我需要这个脚本每天一次从多个网站自动下载新闻，并将其存储在一个文件中，其中包含标题、日期、内容等类别。我会在 apache2 服务器上上传这个脚本。有什么建议吗？

最佳答案

How do I extract such information and dump it in a file- txt/.dmp or any other kind of file? What tool should I use?

for more news you need to click on "Read more".

您可能会利用的工具是作为其纯浏览器自动化的 Selenuim 或 iMacros。

Here是在服务器端的 Python 中利用 Selenium 的示例。
Here是一篇关于使用 iMacros 进行数据提取的帖子(和视频)。由于您每天只需要一次，因此您可以安排在 Win 或 Mac 中定期运行它。

关于python - 如何使用 Python 每天抓取一次每日新闻？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29147449/

上一篇：html - 在 Internet Explorer 中嵌入 YouTube 视频

下一篇：html - 将元素定位在 div 的底部(不是父元素)- Twitter Bootstrap v3

javascript - 使用javascript查找未标记的元素

javascript - 如何在 JSON 对象中搜索特定字符串值？

python - 如何将函数(BigramCollocationFinder)应用于 Pandas DataFrame

python - Q-Learning AI 无法识别简单的模式

python - 通过嵌套Python字典进行高效迭代

python - 如何使用 Sphinx 记录 Python 包

python - 如何关闭requests.Session()？

html - 为什么我的 div 没有高度？

machine-learning - 高偏差卷积神经网络不会随着更多层/滤波器而得到改善