python - 使用selenium获取动态html表并使用beautifulsoup解析它

标签 python regex selenium webdriver beautifulsoup

我正在尝试获取网页中由 JavaScript 动态生成的 HTML 表格的内容，并使用 BeautifulSoup 对其进行解析以使用表格中的某些值。

由于内容是由 JavaScript 生成的，因此在源代码 (driver.page_source) 中不可用。

还有其他方式获取内容并使用吗？它是包含任务列表的表，我需要解析该表并确定我正在搜索的特定任务是否可用。

最佳答案

正如 Julian 所提到的，我宁愿检查 Firebug 中的“Net”选项卡(或其他浏览器中的类似工具)并获取这样的数据。如果数据是JSON，则使用 json.loads() ，如果它是html，你可以使用BS或任何其他lib来解析它，正如你所说的。也许你想试试我的dummy lib ，它简化了这一过程并将表作为 tablib 对象返回，您可以将其作为 csv、excel、json 等获取。

关于python - 使用selenium获取动态html表并使用beautifulsoup解析它，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11706424/

上一篇：python - 对于将即发即弃任务发送到一堆 Web 服务器的 Web 服务器来说，正确的 ZMQ 架构是什么？

下一篇：python - 可以执行 Appengine urlfetch 或 urllib2 HEAD 请求吗？

相关文章：

javascript - 需要一个可接受的文件名的正则表达式

java - 无法找到位于框架内且靠近网络表的网络

python - webdriver.get() 引发 TimeoutException

java - 输入文本后如何从文本字段(密码)检索文本

python - “模块”对象没有属性 'feature_column'

python - 在python中检查type == list

regex - 如何在 bash 中的匹配模式之前附加空格

java - java中的正则表达式尝试匹配特定格式的字符串(格式由 | sysbol 组成)

python - 排列的秩

python - numpy 数组的 "In"运算符？