Python:从网站中提取原始 HTML 之外的文本

标签 python web-scraping

我遇到一种情况,我正在从网页中抓取数据,并且需要将该数据(一堆字符串)存储在 txt 文件中。我已经为许多网站编写了执行此操作的代码,但是我遇到了一个障碍,BeautifulSoup 似乎不起作用。

以本网站为例:http://www.vucommodores.com/gametracker/launch/gt_mbasebl.html?event=1530990&school=vand&sport=mbasebl&camefrom=&startschool=&

我希望能够单击逐场比赛按钮,然后从第一局、第二局等中提取文本。有人知道这样做的方法吗,因为文本在原始 HTML 与我所有其他示例的情况一样。

谢谢!

最佳答案

我不认为这就是 BeautifulSoup 的目的。您可以使用Selenium for Python就像从浏览器中一样与页面交互,并模拟点击。然后从html中提取。

关于Python:从网站中提取原始 HTML 之外的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45065307/

相关文章:

python - 提高Numpy的循环速度

python - 使用 python 将具有字符串形式值的属性转换为 vetor

python - Scraper Python和YouTube API

javascript - 使用 R 从 Javascript 检索文本(html 节点)

python - 使用多个表进行时间表网络抓取 (Python)

python - 如何使用 Python Boto3 根据带有通配符的前缀列出对象?

python - 计算python中两个数据框之间的欧氏距离

python - 在 SQLAlchemy 中合并多个声明性基础

python - Selenium:WAITING空元素(跨度)包含任何文本

r - 从 xml 节点集中提取文本