screen-scraping - 有哪些好的方法可以阻止屏幕抓取工具从我的网站上抓取特定内容?

标签 screen-scraping

很确定这个问题对大多数 web 2.0 支持者来说都是亵渎神明,但我确实认为有时你可能不希望你的网站的某些部分被轻易地盗取到其他人的任意网络聚合器中。至少足够了,如果他们真的想要的话,他们需要被逼着用手去做。

我的想法是制作一个脚本,通过绝对坐标按照它们在各自段落中正常出现的顺序定位文本节点,然后将这些文本节点以随机、困惑的顺序存储在 DOM 中。当然,让这样的系统正常工作(正确的文本换行、对齐、样式等)似乎几乎类似于从头开始编写我自己的文档渲染器。

我还考虑将它与类似 CAPTCHA 的东西结合起来,以微妙的方式弄乱文本,以阻碍屏幕抓取工具,这些屏幕抓取工具可以简单地查看快照并识别字母或诸如此类的东西。但这可能是多虑了。

唔。有没有人设计出任何好的方法来做这样的事情?

最佳答案

考虑到刮板无法读取的所有内容,搜索引擎也无法读取。话虽如此,您可以在页面加载后通过 Javascript 将内容注入(inject)到您的文档中。

关于screen-scraping - 有哪些好的方法可以阻止屏幕抓取工具从我的网站上抓取特定内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/139482/

相关文章:

python - Scrapy,在 Javascript 中抓取数据

ruby - Ruby 中的图像抓取

c# - 在 C# 中与网页交互

python - 在 Eventlet 页面抓取器中维护 session ?

python - 使用 BS4 python 进行抓取

python - 使用 python 抓取网站时获取最大页码

c# - 将 WinForms 应用程序发布为 html 5 Canvas

python - 使用 "show more "来抓取数据

python - 如何抓取这个 squawka 页面?

python - 程序化表单提交