python - 如何填写 html 表单并从网站上抓取?

标签 python web-scraping beautifulsoup mechanize scrapy

<分区>

我正在做一个学校项目。我想构建一个 Andriod 应用程序,但在此之前我想从 220.225.101.27/MPLogin/eSewa/VehicleSearch.aspx 中抓取一些数据并必须保存在我的数据库中。当您进入此站点时,您必须填写车辆登记号码,然后它会显示有关车辆的所有详细信息。我不需要完整的详细信息,但我只需要车主的姓名。我想获取所有组合的详细信息车辆登记号码。

我做了一些谷歌搜索,发现了一些 python 库。

  1. 美丽汤
  2. 碎片化
  3. Mechanize

我是 python 新手。请忽略如果我混合了一些术语。我只是想知道:

  1. 我应该使用哪个库?哪个最好?
  2. 关于填写 html 表单然后通过 python 获取详细信息我应该了解什么?
  3. 要成功完成所有这些工作,我首先应该知道什么?
  4. 我需要使用哪些 python 模块?
  5. 如何将这些数据保存到我的数据库或某种 Excel 文件中?
  6. 网站是.net 会不会有什么问题?

我已经阅读了 Beautifulsoup 的文档,并通过使用它成功地打印了 googlenews 标题文本。但这是基本的。填写 html 表单然后获取详细信息很困难。

我知道这是一个很长的问题,但我想自己学习这些东西。如果有人能一步一步地指导我,那就太好了。

最佳答案

由于您没有提供任何代码并且您基本上是在征求建议,所以我只会告诉您我的见解。

您提到的所有事实都完全指向 scrapy .这是一个非常强大的网页抓取工具。

基本上,您应该执行以下步骤来实现您的任务:

说到具体解析这个网站,它有一个基本的 html 表单,可以通过 scrapy 的 FormRequestFormRequest.from_response 以编程方式提交。然后,您可以使用管道将抓取的数据存储在数据库、csv 或其他任何内容中。

回来问你是否有任何具体的(适合问答)问题。

希望能帮助您入门。

关于python - 如何填写 html 表单并从网站上抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16906275/

相关文章:

python - 在python项目中使用相对路径读取文件

python - Python 中的日期时间库为 YYYY-MM-DD 提供了不正确的格式,导致嵌入 API 调用后出现错误

python - python 网络抓取期间索引超出范围错误(漂亮的汤)

python - 尝试从某个跨度类中提取文本

python - BeautifulSoup:搜索 .text 属性

python - 如何提取 BeautifulSoup 中 <em> 标签外的文本

python - 将值替换为总行中的百分比

python - 宽到长的数据帧转置

php - 我正在尝试在页面上抓取带有 id 的特定 div

python - 如何通过网络抓取喜欢 Instagram 图片的用户?