programming-languages - 什么是最好的屏幕抓取语言?

标签 programming-languages screen-scraping web-scraping

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center寻求指导。




9年前关闭。




嗨,我想创建一个桌面应用程序 (c# prob),用于在 3rd 方网页上抓取或操作表单。基本上我在桌面应用程序的表单中输入我的数据,它会转到第 3 方网站,然后使用脚本或后台的任何内容,在那里输入我的数据(包括我的登录名)并为我单击提交按钮。我只是想避免加载浏览器!

在这个领域没有做太多(任何!)工作我想知道像 perl、python、ruby 等脚本语言是否允许我这样做?或者干脆使用 c# 和 .net 完成所有的抓取?哪一个是最好的IYO?

我在想脚本可能需要从不同平台上的应用程序中 Hook 到相同的脚本(例如 symbian mobile,我无法像桌面版本那样在 c# 中开发它)。

它不是网络应用程序,否则我不妨使用原始网站。我意识到这一切听起来毫无意义,但这种特定形式的自动化对我来说将是一个真正的节省时间。

最佳答案

别忘了看BeautifulSoup ,强烈推荐。

例如,参见 options-for-html-scraping .
如果您需要为此任务选择一种编程语言,我会说 Python .

更直接的解决您问题的方法,请参阅 twill ,一种用于网页浏览的简单脚本语言。

关于programming-languages - 什么是最好的屏幕抓取语言?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/760142/

相关文章:

language-agnostic - 一种语言可以图灵完整但在其他方面不完整吗?

programming-languages - 闭包中的副作用,它们仍然是纯功能性的吗?

regex - 屏幕抓取: regular expressions or XQuery expressions?

Python - 使用 Python 3 urllib 发出 POST 请求

javascript - 使用 Node.js 请求抓取网站并获取奇怪的字符

web - 新的 Gmail UI 是使用哪种前端编程语言构建的?

compilation - 所有的编程语言都是按顺序阅读的吗?

python - 我正在尝试使用 Python 3.x 从亚马逊抓取评论,但一无所获

java - 如何执行网络抓取以在 Google App Engine 上查找 Java 中的特定链接页面?

python - 如何提取 HTML 段落的某些部分