python - 如何使用 python 读取网站上的文本(简单解释)

标签 python html web

我正在寻找一个程序,可以在给定网站的 URL 时从网站上获取文本。我希望能够获取

标签之间的所有文本。我在网上查看的所有地方似乎都使这个问题变得过于复杂,并且涉及一些我不太熟悉的 C 编码。总结一下我希望代码是什么样的(最好的情况)。如果问题中有任何我可以澄清或不清楚的地方,请在评论中告诉我

import WebReader as WR

StringOfWebText = WR.getParagrahText("WebsiteURL")

最佳答案

您可能想查看类似 BeautifulSoup 的内容与 requests 配对。然后,您可以使用如下简单的解决方案从页面中提取文本:

import requests
from bs4 import BeautifulSoup

r = requests.get("https://google.com")
soup = BeautifulSoup(r.text, "html.parser")
print(s.text)

如果您需要处理这些问题,BS4 中还内置了标签搜索和其他有用的功能。

关于python - 如何使用 python 读取网站上的文本(简单解释),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71597809/

相关文章:

java - WebEngine 未加载以 HTML (javafx) 链接的文件

javascript - Facebook 登录 - 混合应用

javascript - 在JavaScript中播放特定时间的音频

web - 所有主要浏览器允许的最大 HTTP 重定向次数是多少?

css - 在线聊天中 Web 共享的图像预览

Python:urlopen - 如果发生任何错误则跳过条目

python - 如果我们只有字符串类型的方法名称,有没有办法获取方法采用的参数数量?

Python:如何从 xlsx 文件中抓取数据的语法?

Javascript:当其他字段匹配某个单词时禁用文本字段

python - Python中Matlab的datenum(datestring)等价函数