javascript - 在 python 中抓取 javascript 页面

标签 javascript python selenium beautifulsoup request

世界你好,

Python 新手,我正在尝试抓取 javascript 页面:https://search.gleif.org/#/search/

请在下面找到我的代码的结果(使用请求)

<!DOCTYPE html>
<html>
<head><meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<title>LEI Search 2.0</title>
<link href="/static/icons/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://fonts.googleapis.com/css?family=Open+Sans:200,300,400,600,700,900&amp;subset=cyrillic,cyrillic-ext,greek,greek-ext,latin-ext,vietnamese" rel="stylesheet"/>
<link href="/static/css/main.045139db483277222eb714c1ff8c54f2.css" rel="stylesheet"/></head>
<body>
<div id="app"></div>
<script src="/static/js/manifest.2ae2e69a05c33dfc65f8.js" type="text/javascript"></script>
<script src="/static/js/vendor.6bd9028998d5ca3bb72f.js" type="text/javascript"></script>
<script src="/static/js/main.5da23c5198041f0ec5af.js" type="text/javascript"></script>
</body>
</html>

问题: 而不是检索上面的脚本:
“src =“/static/js/manifest.2ae2e69a05c33dfc65f8.js”类型=“text/javascript””

我想要表格的内容以便存储它。

我想要抓取的表格 enter image description here

最佳答案

以下代码是使用 PySelenium 编写的.

import time
from selenium import webdriver

country = []
legal_name = []
lei = []

driver = webdriver.Chrome()
driver.implicitly_wait(5)

for i in range(1,30395):
    driver.get('https://search.gleif.org/#/search/fulltextFilterId=LEIREC_FULLTEXT&currentPage='+str(i)+'&perPage=50&expertMode=false#results-section')

    time.sleep(5)

    country += [i.get_attribute('innerHTML') for i in driver.find_elements_by_xpath('//*[@class="table-cell country"]/a')]
    legal_name += [i.get_attribute('innerHTML') for i in driver.find_elements_by_xpath('//*[@class="table-cell legal-name"]/a')]
    lei += [i.get_attribute('innerHTML') for i in driver.find_elements_by_xpath('//*[@class="table-cell lei"]/a')]

登录(使用相应的元素更改此设置。)

driver.find_element_by_id("UserName").send_keys("xxxx")
driver.find_element_by_name("Password").send_keys("yyyy")
driver.find_element_by_class("loginButton").click()

获取页面内容

打印(driver.page_source)

关于javascript - 在 python 中抓取 javascript 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58791630/

相关文章:

javascript - jquery修改页面上所有 anchor 标记href并从href属性中提取关键请求参数

python - 如何使用 ctypes 在 python 中正确包装 C API?

python - Google Python API 电子表格行/列计数

python - 为什么 instagram 不能与 Selenium headless Chrome 一起使用?

javascript - Google CDN 托管具有本地后备功能的 jQuery UI CSS?

javascript - MVC (ASP.NET) 中的自动保存

javascript - 单击按钮时使用 JavaScript 清除多个文本框

php - 在 Python|PHP 中读取文件内容

selenium - 如何使用Selenium WebDriver拍摄部分屏幕截图(框架)?

python - Selenium 使用 Send_keys 自动提交表单?