python - 如何访问 newspaper3k 中的缓存文章

标签 python python-3.x web-scraping python-newspaper

Newspaper 是一个很棒的库,它允许抓取网络数据,但我对文章缓存有点困惑。它缓存文章以加快操作,但我如何访问这些文章?

我有这样的东西。现在,当我对同一组文章运行此命令两次时,第二次得到返回类型 None。我如何访问那些以前缓存的文章进行处理?

newspaper_articles = [Article(url) for url in links]

最佳答案

看看这个:https://github.com/codelucas/newspaper/issues/481似乎 https://github.com/codelucas/newspaper/blob/master/newspaper/utils.py 中的缓存方法“cache_disk”可能有错误。它确实会将结果缓存到磁盘(搜索文件夹“.newspaper_scraper”),但之后不会加载它们。

解决方法是在构建报纸或使用 Config 类时设置 memoize_articles=False。

newspaper.build(url, memoize_articles=False)

关于python - 如何访问 newspaper3k 中的缓存文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51497107/

相关文章:

python - 导入错误 : No module named 'setuptools.build_meta'

python - pySerial 2.6 在 pySerial sourceforge 网站上不可用

python - Pandas :过滤值出现在对的两端,但不在组内

python - 将 lambda 函数应用于 pandas 滚动窗口系列

javascript - 如何在 javascript 页面上单击带有 selenium 的按钮

python - 如何在 BeautifulSoup 中使用元素的样式定义(例如填充、字体大小等)来抓取元素

python - 如何使用 Beautiful soup 和 python 获取团队文本和得分?

python - git 如何获取与文件关联的提交?

绝对初学者的Python编程: chapter 3 ERROR

python-3.x - pandas:从包含列表的另一个 df 列中的一个 df 搜索列值