Python Mechanize SelectControl 在它应该有值时为空

标签 python html-parsing mechanize

我正在尝试从网络表单自动下载一些数据。我正在使用 python 的 mechanize模块。

网址在这里:http://www.hiv.lanl.gov/components/sequence/HIV/search/search.html
我需要填写序列长度、亚型和基因组区域。我已经弄清楚了序列长度和基因组区域,但是我在选择子类型时遇到了麻烦。当我加载表单时,得到一个空的 SelectControl 并且 Mechanize 不会让我选择任何东西。

此代码应加载网站:

import mechanize
import cookielib

# Browser
br = mechanize.Browser()

# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

# Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.open('http://www.hiv.lanl.gov/content/sequence/HIV/mainpage.html')
br.follow_link(text = 'Search Interface')

br.select_form(nr = 1)

任何帮助将不胜感激。

-将要

编辑:
我尝试使用 BeautifulSoup 重新解析 HTML(按照此 SO question),但没有成功。

新编辑:
以下是 mechanize 的摘录形式。
<search POST http://www.hiv.lanl.gov/components/sequence/HIV/search/search.comp multipart/form-data
  <TextControl(value SequenceAccessions SA_GenBankAccession 1=)>
  <SelectControl(master=[Any, *HIV-1, HIV-2, SIV, SHIV, syntheticwholeDNA, NULL])>
  <TextControl(value SEQ_SAMple SSAM_common_name 1=)>
  <SelectControl(slave=[])>
  <TextControl(value SequenceEntry SE_sequenceLength 4=)>
  <CheckboxControl(sample_year_exact=[*1])>
  <TextControl(value SEQ_SAMple SSAM_Sample_year 11=)>
  <TextControl(value SEQ_SAMple SSAM_Sample_country 1=)>
  <CheckboxControl(recombinants=[Recombinants])>

出于某种原因,slave控件未填充可能的选项。

最佳答案

问题是子类型<select>选项由 Javascript 填充,不执行 Mechanize 。 Javascript 代码在页面加载时运行,使用 HIV-1 列表填充从属选项:

addLoadEvent(fillList(document.forms['search'].slave, lists['HIV-1']));

但是,Virus -> Subtype 的映射存储在 this Javascript file search.js 中。 .您可能需要将此映射存储在 Python 脚本中并手动设置从属表单值。

关于Python Mechanize SelectControl 在它应该有值时为空,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5383933/

相关文章:

ruby-on-rails - Mechanize::响应代码错误:501

ruby-on-rails - 如何将 rake 任务的输出显示到浏览器?

python - 从 Kubernetes api 打印日志

r - R中xpathSApply的正确语法

macos - 如何使用XPath和Swift 2.0解析html?

java - Jsoup Java HTML 解析器 : Executing Javascript events

python - 如何使用 CSS 设置 CGI python 的样式?

Python正则表达式在div之间替换

python - 如何在 Odoo 中将值和翻译从一个字段复制到另一个字段?

html - 如何使用 Nokogiri 使用 CSS 选择器逐行解析?