我正在开展一个宠物项目,从 ESPN 上我自己的梦幻联赛中抓取梦幻足球统计数据。我遇到的似乎无法解决的问题是,在我向联盟页面发出请求之前需要登录。
我点击的网址是
http://games.espn.com/ffl/leaguesetup/ownerinfo?leagueId=123456&seasonId=2016
通过查看 GET 请求,我似乎被重定向到了
这会立即让我进入登录提示窗口。当我登录时,我检查 POST 请求并记下所有请求 header 。看起来 POST 上请求的 URL 是
https://registerdisney.go.com/jgc/v5/client/ESPN-FANTASYLM-PROD/guest/login?langPref=en-US
此外,我注意到传递了以下 JSON 对象:
{"loginValue":"myusername","password":"mypassword"}
使用请求 header 和 JSON 对象,我执行了以下操作:
String url = "http://games.espn.com/ffl/leaguesetup/ownerinfo?leagueId=123456&seasonId=2016";
String rawData = "{\"loginValue\":\"myusername\",\"password\":\"mypassword\"}";
URL obj = new URL(url);
HttpURLConnection con = (HttpURLConnection) obj.openConnection();
con.setRequestMethod("POST");
con.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
con.setRequestProperty("Accept-Encoding", "gzip, deflate");
con.setRequestProperty("Accept-Language", "en-US,en;q=0.5");
con.setRequestProperty("Authorization", "APIKEY 8IYGqTgmpFTX51iF1ldp6MBtWrdQ0BxNUf8bg5/empOdV4u16KUSrnkJqy1DXy+QxV8RaxKq45o2sM8Omos/DlHYhQ==");
con.setRequestProperty("Cache-Control", "no-cache");
con.setRequestProperty("Content-Length", "52");
con.setRequestProperty("Content-Type", "application/json; charset=UTF-8");
con.setRequestProperty("Expires", "-1");
con.setRequestProperty("Host", "registerdisney.go.com");
con.setRequestProperty("Origin", "https://cdn.registerdisney.go.com");
con.setRequestProperty("Pragma", "no-cache");
con.setRequestProperty("Referer", "https://cdn.registerdisney.go.com/v2/ESPN-ESPNCOM-PROD/en-US?include=config,l10n,js,html&scheme=http&postMessageOrigin=http%3A%2F%2Fwww.espn.com%2F&cookieDomain=www.espn.com&config=PROD&logLevel=INFO&topHost=www.espn.com&ageBand=ADULT&countryCode=US&cssOverride=https%3A%2F%2Fsecure.espncdn.com%2Fcombiner%2Fc%3Fcss%3Ddisneyid%2Fcore.css&responderPage=https%3A%2F%2Fwww.espn.com%2Flogin%2Fresponder%2Findex.html&buildId=157599bfa88");
con.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0");
con.setRequestProperty("conversation-id", "5a4572f4-c940-454c-8f86-9af27345c894, adffddd3-8c31-41a0-84d7-7a0401cd2ad0");
con.setRequestProperty("correlation-id", "4d9ddc78-b00e-4c5a-8eec-87622961fd34")
con.setDoOutput(true);`
OutputStreamWriter w = new OutputStreamWriter(con.getOutputStream(), "UTF-8");
w.write(rawData);
w.close();
int responseCode = con.getResponseCode();
BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
String inputLine;
StringBuffer response = new StringBuffer();
while ((inputLine = in.readLine()) != null) {
response.append(inputLine);
}
in.close();
假设我走在正确的轨道上,我当前从服务器返回的是服务器
returned HTTP response code: 400 for URL: https://registerdisney.go.com/jgc/v5/client/ESPN-FANTASYLM-PROD/guest/login?langPref=en-US
你知道发生了什么或者我在这里采取了完全错误的方法吗?我尝试使用 JSoup 但也没有运气,我相信 JSoup 底层也使用 HttpUrlConnection 。
我是否需要先执行某种 GET 请求,保存一些内容,然后执行 POST 请求?应该如何运作?
最佳答案
您正在尝试使用 JSoup 模拟 Web 浏览器的行为。正如您所经历的,这是相当复杂的,并且 JSoup 并不是为了模拟浏览器而设计的。当您开始制作 HTTP header 时,最好采用其他方法。
您的问题的解决方案是使用可以通过编程方式操作的浏览器。 Selenium或多或少是Java事实上的标准。
Selenium 启动您最喜欢的浏览器(Firefox、Chrome 等)并让您通过 Java 程序控制它。您还可以检索网页内容,以便使用 JSoup 废弃它们。 Selenium 有详细的文档,您可以轻松找到所需的文档/教程。
关于java - 使用 JSON 对象的 POST Http 请求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40352670/