python - 限制报纸的 URL 输出

标签 python url web-scraping python-newspaper

我正在使用报纸3从news.google中提取网址，但问题是我不断获取所有网址(我已禁用memoize，因为我需要完整列表)。我只想打印前 5 个链接或 5 个随机链接并不重要。我尝试过设置最大值，但没有成功。有什么想法吗？

import newspaper

news = newspaper.build('https://news.google.com/topics/CAAqJggKIiBDQkFTRWdvSUwyMHZNRGx6TVdZU0FtVnVHZ0pWVXlnQVAB?oc=3&ceid=US:en', memoize_articles=False)

for article in news.articles:
    print(article.url)

最佳答案

这段代码应该正是您想要的。它不使用报纸功能，而是随机选择一定数量的网址。报纸的输出不是列表，因此必须使用追加函数将其转换为列表。享受吧!

import newspaper

business_news = newspaper.build('https://news.google.com/topics/CAAqJggKIiBDQkFTRWdvSUwyMHZNRGx6TVdZU0FtVnVHZ0pWVXlnQVAB?hl=en-US&gl=US&ceid=US%3Aen', language='en', memoize_articles = False)

myList = []
for article in business_news.articles:
    myList.append(str(article.url))
print(myList) #not necessary just for display purposes

import random

aselect = myList
randarticles = random.sample(aselect, 5)

print(randarticles)

关于python - 限制报纸的 URL 输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54945705/

上一篇：python - 如何在Python中的主线程继续工作的情况下在单独的线程中实现阻塞监听功能

下一篇：python - 如何在Python中将音频文件输入的语音转换为文本

相关文章：

python - 对 pandas 数据框进行排序以获取沿对角线的最小值

python - 添加投影导入的 .asc 文件

python - Pygtk 入口占位符

facebook - "?fref=jewel"在 facebook 的 url 中是什么意思？

html - 如何解析HTML5 Canvas中显示的数据？

python - flask 测试客户端 : Testing DELETE request with data

java - 将 HTML 代码添加到列表中

python - 使用 python 和正则表达式解析 xbrl 以查找 TextBlocks

r - 我想弄清楚如何解析网页

php - 如何防止用户为网址添加书签？