python - 有什么方法可以告诉 selenium 在某个时候不要执行 js?

标签 python selenium web-crawler

我想抓取一个包含一些由 js 生成的内容的网站。 该站点每 5 秒运行一次 js 更新内容(请求一个新的加密 js 文件,无法解析)。

我的代码:

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.set_window_size(1120, 550)

driver.get(url)

trs = driver.find_elements_by_css_selector('.table tbody tr')

print len(trs)

for tr in trs:
    try:
        items.append(tr.text)
    except:
        # because the js update content, so this tr is missing
        pass

print len(items)

len(items)len(trs) 不匹配。 如何告诉 selenium 在我运行 trs = driver.find_elements_by_css_selector('.table tbody tr') 后停止执行 js 或停止工作?

后面需要用到trs,所以不能用driver.quit()

异常详情:

---------------------------------------------------------------------------
StaleElementReferenceException            Traceback (most recent call last)
<ipython-input-84-b80e3579efca> in <module>()
     11 items = []
     12 for tr in trs:
---> 13     items.append(tr.text)
     14     #items.append(map_label(hidemyass_label, tr.find_elements_by_tag_name('td')))
     15 

C:\Python27\lib\site-packages\selenium\webdriver\remote\webelement.pyc in text(self)
     69     def text(self):
     70         """The text of the element."""
---> 71         return self._execute(Command.GET_ELEMENT_TEXT)['value']
     72 
     73     def click(self):

C:\Python27\lib\site-packages\selenium\webdriver\remote\webelement.pyc in _execute(self, command, params)
    452             params = {}
    453         params['id'] = self._id
--> 454         return self._parent.execute(command, params)
    455 
    456     def find_element(self, by=By.ID, value=None):

C:\Python27\lib\site-packages\selenium\webdriver\remote\webdriver.pyc in execute(self, driver_command, params)
    199         response = self.command_executor.execute(driver_command, params)
    200         if response:
--> 201             self.error_handler.check_response(response)
    202             response['value'] = self._unwrap_value(
    203                 response.get('value', None))

C:\Python27\lib\site-packages\selenium\webdriver\remote\errorhandler.pyc in check_response(self, response)
    179         elif exception_class == UnexpectedAlertPresentException and 'alert' in value:
    180             raise exception_class(message, screen, stacktrace, value['alert'].get('text'))
--> 181         raise exception_class(message, screen, stacktrace)
    182 
    183     def _value_or_default(self, obj, key, default):

StaleElementReferenceException: Message: {"errorMessage":"Element is no longer attached to the DOM","request":{"headers":{"Accept":"application/json","Accept-Encoding":"identity","Connection":"close","Content-Type":"application/json;charset=UTF-8","Host":"127.0.0.1:63305","User-Agent":"Python-urllib/2.7"},"httpVersion":"1.1","method":"GET","url":"/text","urlParsed":{"anchor":"","query":"","file":"text","directory":"/","path":"/text","relative":"/text","port":"","host":"","password":"","user":"","userInfo":"","authority":"","protocol":"","source":"/text","queryKey":{},"chunks":["text"]},"urlOriginal":"/session/4bb16340-a3b6-11e5-8ce5-9d0be40203a6/element/%3Awdc%3A1450243990539/text"}}
Screenshot: available via screen

显然 tr 不见了。

PS:我需要使用 Selenium 来选择元素。其他库如 lxmlpyquery 不知道哪个元素是 display:none 或不是, .text() 经常在 <script> 中得到评论或其他东西,等等错误。遗憾的是 python 没有 Jquery 的完美克隆。

最佳答案

使用抓取。确定页面已加载后,使用以下方法获取正文:

response = TextResponse(url=self.driver.current_url, body=self.driver.page_source, encoding='utf-8')

您现在拥有该页面的静态副本,这样您就可以使用 scrapy 的 response.xpath 来提取您需要的任何数据。这answer更多细节。

关于python - 有什么方法可以告诉 selenium 在某个时候不要执行 js?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34303054/

相关文章:

python - 禁用 Django 异常格式化

java - 如何使用Selenium选择 “style”的值

python - 在Scrapy(网络爬虫)中返回复杂的项目

python - Scrapy 在恢复之前做一些事情

python - python实现中的联合与继承

python - python中的素数使用for循环和break

javascript - Python Tornado : how do I set WebSocket headers?

node.js - 带 Protractor 的 Sauce Labs,URI 格式错误

javascript - Selenium webdriver TypeError : element. isDisplayed is not a function

seo - 谷歌爬虫中的链接标题不正确