python - 如何编写一个 python 程序,从给定的下拉菜单中选择所有可能的组合,从网站上获取结果 'scrapes' ?

标签 python selenium selenium-webdriver web-scraping regression

有一个网站声称可以根据以下以个人下拉列表形式呈现的标准来预测个人的大致工资

  1. 年龄:5 个选项
  2. 教育:3 个选项
  3. 性别:3 个选项
  4. 工作经验:4 种选择
  5. 国籍:12 个选项

单击提交按钮后,网站会在新页面上提供一堆文本作为输出,并以数字形式估计工资。

因此,从技术上讲,有 5*3*3*4*12 = 2160 个数据点。我想得到它并将其排列在 Excel 表格中。然后我会运行回归算法来猜测该网站使用的功能。这就是我期待通过这次练习实现的目标。这完全出于学习目的,因为我热衷于学习这些工具。

但是我不知道该怎么办?任何相关的教程、文档、指南都会有所帮助!我正在用 python 编程,我很想用它来完成这个任务!

谢谢!

最佳答案

如果您不愿意按照 roganjosh 的建议向他们索取数据库:),请使用 Selenium。 用 Python 编写一个脚本来控制 Web 驱动程序并重复向所有可能的组合发送请求。该脚本非常简单,只是每种类型的参数/下拉列表的嵌套循环。

如果您确定每种类型的值不相互依赖,请检查向服务器发送的请求。如果它是简单的 URL 编码,例如 age=...&sex=...&..., 那么不需要 Selenium。只需为所有可能的组合生成这样的 URLa 并调用服务器即可。

关于python - 如何编写一个 python 程序,从给定的下拉菜单中选择所有可能的组合,从网站上获取结果 'scrapes' ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50776071/

相关文章:

selenium - 在使用相同的 xpath 定位元素时获取 InvalidSelectorException,该 xpath 在具有 1 个匹配节点的 firepath 中运行良好

javascript - 无法使用 selenium webdriver js 单击或提交按钮

python - 迭代 python 集中的单个元素

python - 如何创建列表列表,其中子列表是每列的列值

python - 无法使用 Selenium find_element_by_partial_link_text 找到元素

java - PDFBox IOException : End of File, 预期行

.net - 使用网站生成的电子邮件进行 UAC 测试

Python:运行脚本的命令行应用程序。发送文件中的参数

python - Graphviz 边的默认标签

java - Selenium 无法获取http