screen-scraping - 是否有一个很好的教程来弄清楚网站正在做什么,以便您的程序可以做同样的事情?

标签 screen-scraping user-agent

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center为指导。




8年前关闭。




对于需要以编程方式与动态网站进行交互的人,是否有很好的指南或教程?最近有一大堆关于这个的 Perl 问题,我还没有找到一个很好的资源来指向人们。我问不是因为我需要一个,而是因为如果它已经存在,我不想浪费时间写它。尽管我对 Perl 最感兴趣,但额外的工具和技术大体相同。

通常,我会在人们的问题中看到这些问题:

  • 处理、设置和保存 cookie
  • 查找表单并与之交互
  • 在用户代理中处理 JavaScript
  • 特别是像onLoad这样的东西, onSumbit , 和 Ajax
  • 使用 HTTP 嗅探器工具
  • 在交互式浏览器中使用 Web 开发人员插件
  • 与DOM交互、屏幕抓取等

  • 如果没有好的教程,我会把它添加到我要做的事情列表中(除非其他人想做)。在此过程中,如果您对现有教程没有建议,请提出您认为应该在新教程中包含的内容,包括链接、您最喜欢的工具和您自己的用户代理开发经验。我不在乎你使用的特定语言。

    最佳答案

    我见过的最好的是a Defcon presentation video .

    关于screen-scraping - 是否有一个很好的教程来弄清楚网站正在做什么,以便您的程序可以做同样的事情?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2754725/

    相关文章:

    c# - 使用 htmlagilitypack 选择具有特定文本值的节点

    artificial-intelligence - 人工智能 - 清洁和油漆的智能代理

    .net - WebBrowser 控件报告什么 UserAgent?

    objective-c - 如何在 Objective C 中使用 NSData 存储图像

    php - 如何通过 html 源中的 <script> 标签从网页中抓取数据。 (PHP)

    perl - 从 Mojolicious 用户代理响应中提取 cookie

    api - 我应该使用自定义 header 还是用户代理 header 将设备信息发送到服务器

    正则表达式检测 IE9 及以下版本?

    html - 如何在 bash 中从 html 中提取 td?

    mysql - 如何存储整个网页供以后解析?