我是屏幕抓取的新手。当我使用代理服务器并跟踪 HTTP 事务时,我得到了我的发布数据。所以我的疑问/问题是, 1)它会存储在服务器端还是只显示给客户端? 2)我们是否可以选择在屏幕抓取中加密发布数据? 3)银行应用程序使用屏幕抓取是否可取? 我正在使用从中下载的屏幕抓取工具 http://www.screen-scraper.com/download/choose_version.php . (企业版)
提前致谢。
最佳答案
我在数据抓取方面的经验是,如果您没有做任何 super 复杂的事情(例如登录在线银行网站等安全网站等),那么 Python 有一些很棒的库可以为您提供很多帮助。
回答您的问题:
1) 您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。
2) 事实上,你知道。 Urllib 和 Urllib2(内置 Python 库)都具有使您能够在进行 POST 之前加密数据的功能。至于这种加密的安全性,对于大多数应用程序来说,这就足够了。
3) 我实际上已经在网上银行网站上进行了抓取!我不太熟悉该工具,但我建议使用与爬虫略有不同的工具。 Selenium 是一个“网络驱动程序”,它允许您模拟浏览器的使用,这意味着浏览器在后台为验证 session 所做的任何事情都会自动处理。我在尝试抓取银行网站时遇到的主要问题是丢失了重要的 session 数据。
Selenium - https://pypi.python.org/pypi/selenium
您可能会发现有用的其他库是:urllib、urllib2 和 Mechanize
希望对您有所帮助!
关于web-scraping - 服务器端的屏幕抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17399421/