python - 使用selenium获取动态html表并使用beautifulsoup解析它

标签 python regex selenium webdriver beautifulsoup

我正在尝试获取网页中由 JavaScript 动态生成的 HTML 表格的内容,并使用 BeautifulSoup 对其进行解析以使用表格中的某些值。

由于内容是由 JavaScript 生成的,因此在源代码 (driver.page_source) 中不可用。

还有其他方式获取内容并使用吗?它是包含任务列表的表,我需要解析该表并确定我正在搜索的特定任务是否可用。

最佳答案

正如 Julian 所提到的,我宁愿检查 Firebug 中的“Net”选项卡(或其他浏览器中的类似工具)并获取这样的数据。如果数据是JSON,则使用 json.loads() ,如果它是html,你可以使用BS或任何其他lib来解析它,正如你所说的。也许你想试试我的dummy lib ,它简化了这一过程并将表作为 tablib 对象返回,您可以将其作为 csv、excel、json 等获取。

关于python - 使用selenium获取动态html表并使用beautifulsoup解析它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11706424/

相关文章:

javascript - 需要一个可接受的文件名的正则表达式

java - 无法找到位于框架内且靠近网络表的网络

python - webdriver.get() 引发 TimeoutException

java - 输入文本后如何从文本字段(密码)检索文本

python - “模块”对象没有属性 'feature_column'

python - 在python中检查type == list

regex - 如何在 bash 中的匹配模式之前附加空格

java - java中的正则表达式尝试匹配特定格式的字符串(格式由 | sysbol 组成)

python - 排列的秩

python - numpy 数组的 "In"运算符?