java - 为什么雅虎电影返回 "unknown issue"页面?

标签 java request screen-scraping limit yahoo

据我所知,雅虎电影没有 API,我为它制作了一个抓取工具 (Java)。 现在的问题是,当我向雅虎电影请求多个页面时,它有时会返回一个“未知问题”页面,因此我决定重新请求该页面,直到它显示包含以下信息的页面:我想要,但有时我必须重新请求 20 次、40、120、400 次,所以这不太好:(。 我很确定我请求的是正确的网址。 这是一个示例网址

http://movies.yahoo.com/mvc/dfrv?mid=1810159162&uid=vdpL427zgsScLbwOEsyG4zOn1bQex.F2Xg--&s=&i=0&spl=0

所以我浏览了它的分页。

有人知道为什么会发生这种情况吗?雅虎有限制吗?

另外,您知道其他来源或 API 来获取电影评论吗? (除了 IMDB)

谢谢

最佳答案

首先,检查其 TOS 是否可以接受。他们可能不喜欢自己的网站被抓取。

其次,我认为他们正在限制您的连接。我会自己限制它,而不是再次尝试直到它起作用。考虑一个 Thread.sleep(500)。 (调整数字,这样您就不会收到错误。)如果您始终显示为受到限制,他们很可能会阻止您的 IP。

关于java - 为什么雅虎电影返回 "unknown issue"页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8319803/

相关文章:

java - 可能有多个 ArrayList 的 ArrayList

python - 如何从 Python 请求/Beautiful Soup 中的某些文本参数获取特定的 HTML 行

python - python 中的抓取显示 None 值

reactjs - 如何使用 React js 从响应中获取 jsessionid?

python - 如何在Python中实现aws Glacier示例请求?

Java 和 SetWindowDisplayAffinity

javascript - 我无法从使用 python 3.6.0 + selenium 3.4.3 的 javascript 函数生成的链接下载 PDF 文件

java - syslog4j 在 rsyslog 重新启动时停止记录

java - 在gradle中包含本地jar依赖以及相应的源jar

java - 消息驱动的 bean 和超时中的长时间运行任务