web-scraping - 服务器端的屏幕抓取

标签 web-scraping screen-scraping

我是屏幕抓取的新手。当我使用代理服务器并跟踪 HTTP 事务时,我得到了我的发布数据。所以我的疑问/问题是, 1)它会存储在服务器端还是只显示给客户端? 2)我们是否可以选择在屏幕抓取中加密发布数据? 3)银行应用程序使用屏幕抓取是否可取? 我正在使用从中下载的屏幕抓取工具 http://www.screen-scraper.com/download/choose_version.php . (企业版)

提前致谢。

最佳答案

我在数据抓取方面的经验是,如果您没有做任何 super 复杂的事情(例如登录在线银行网站等安全网站等),那么 Python 有一些很棒的库可以为您提供很多帮助。

回答您的问题:

1) 您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。

2) 事实上,你知道。 Urllib 和 Urllib2(内置 Python 库)都具有使您能够在进行 POST 之前加密数据的功能。至于这种加密的安全性,对于大多数应用程序来说,这就足够了。

3) 我实际上已经在网上银行网站上进行了抓取!我不太熟悉该工具,但我建议使用与爬虫略有不同的工具。 Selenium 是一个“网络驱动程序”,它允许您模拟浏览器的使用,这意味着浏览器在后台为验证 session 所做的任何事情都会自动处理。我在尝试抓取银行网站时遇到的主要问题是丢失了重要的 session 数据。

Selenium - https://pypi.python.org/pypi/selenium

您可能会发现有用的其他库是:urllib、urllib2 和 Mechanize

希望对您有所帮助!

关于web-scraping - 服务器端的屏幕抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17399421/

相关文章:

python - 如何在python的scrapy中删除字符串的特定部分

vba - 屏幕抓取 - 通过几个标签名称向下查找类名称

web-scraping - 内存泄漏在哪里?如何在python的多处理期间超时线程?

python - 将Scrapy数据保存到MySQL中对应的URL

python - 去掉方括号——用美汤刮

python - 抓取 MTA 地铁数据?

python - 如何使用 Python 和 BeautifulSoup 进行抓取 - 使用 Javascript 处理表

python - 需要帮助使用 bs4 和 python 从幻灯片中抓取图像

Rvest 网络抓取返回空字符

c++ - Windows 中的“字段抓取”