java - 使用 JSoup 通过 URL 登录(Java)

标签 java jsoup

我正在尝试以通常的方式登录网页,以抓取/提取数据。登录部分一切正常,但我得到的响应是 HTML 页面,其中显示“正在登录,请稍候”。

我想要的返回页面是“序列”中的最后一个页面。

有什么办法可以跳过这个吗?我错过了什么吗?

抱歉,如果这是重复的,我已经阅读了 StackOverflow,但没有找到类似的内容。

代码如下所示:

public static void main(String[] args) throws IOException, ParseException{
    final String USER_AGENT = "\"Mozilla/5.0 (Windows NT\" +\n" +
    "          \" 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.120 Safari/535.2\"";
    String username = "xxx";
    String password = "xxx";
    HashMap<String, String> cookies = new HashMap<>();
    HashMap<String, String> formData = new HashMap<>();
    String loginFormUrl = "https://id.ice.no/oauth2/account/login?returnUrl=%2Foauth2%2Fconnect%2Fauthorize%2Fcallback%3Fclient_id%3DSelfService%26redirect_uri%3Dhttps%253A%252F%252Fminside.ice.no%252Fsignin-callback.html%26response_type%3Did_token%2520token%26scope%3Dopenid%2520profile%2520roles%2520SelfService%26state%3D7f6047df0ddd4949b2992761ed98dd3b%26nonce%3Dbfc111c39548438c9a39b327c745947f%26acr_values%3DreturnUrl%2520Lw%253D%253D";
    String loginActionUrl= "https://id.ice.no/oauth2/account/login?returnUrl=%2Foauth2%2Fconnect%2Fauthorize%2Fcallback%3Fclient_id%3DSelfService%26redirect_uri%3Dhttps%253A%252F%252Fminside.ice.no%252Fsignin-callback.html%26response_type%3Did_token%2520token%26scope%3Dopenid%2520profile%2520roles%2520SelfService%26state%3D6ef2cad2efd24b3db7d61343aacc29f5%26nonce%3Db8b29eea53ae4952b8ffec5c43a9882a%26acr_values%3DreturnUrl%2520L2Fib25uZW1lbnQvMTYxODYwNjIvc2VuZHNtcw%253D%253D";
    Connection.Response loginForm = Jsoup.connect(loginFormUrl).method(Connection.Method.GET).userAgent(USER_AGENT).execute();
    Document loginDoc = loginForm.parse(); // this is the document that contains response html
    cookies.putAll(loginForm.cookies()); // save the cookies, this will be passed on to next request

    formData.put("username", username);
    formData.put("Password", password);
    String authToken = loginDoc.select("#form > input[type=hidden]:nth-child(8)")
      .first()
      .attr("value");
    formData.put("__RequestVerificationToken", authToken);

    Connection.Response homePage = Jsoup.connect(loginActionUrl)
   .cookies(cookies)
   .data(formData)
   .method(Connection.Method.POST)
   .userAgent(USER_AGENT)
   .execute();


   System.out.println(homePage.parse().html());

最佳答案

如果没有真实的登录名和密码来检查那里发生了什么,就很难说,所以我不得不猜测。几点说明:

  1. 带有用户名的输入具有名称用户名,但您正在使用用户名设置formData。这可能会导致问题。

  2. 登录表单的输入很少,但您只需输入用户名、密码和 token 。这可能会导致问题。您应该始终包含所有字段,因此您会丢失:

String returnUrl = loginDoc.select("input[name=ReturnUrl]").first().attr("value");
formData.put("ReturnUrl", returnUrl);
formData.put("RememberLogin", "false");
formData.put("button", "login");

用户浏览器的调试器查看真正提交的数据总是一个好主意: enter image description here

  • 如果有效的话不是问题,但我不喜欢你获取 token 的方式。而不是:
  • String authToken = loginDoc.select("#form > input[type=hidden]:nth-child(8)").first().attr("value");
    

    您可以简单地使用:

    String authToken = loginDoc.select("input[name=__RequestVerificationToken]").first().attr("value");
    
  • 这可能是最重要的。我希望有一个页面将您的浏览器重定向到 ReturnUrl 中定义的 URL。 Jsoup 无法处理 JavaScript 重定向,因此您必须手动请求该页面。实际上,这就是您的浏览器无论如何都会做的事情 - 使用最新的 cookie 发出另一个请求。您走在正确的道路上,因此在代码末尾,您还应该通过获得的 cookie 获得您想要的页面:
  •  cookies.putAll(homePage.cookies());// get the cookies after successful login
     Connection.Response finalPage = Jsoup.connect(returnUrl) //this should be the URL of the page you want to visit in the first place
       .cookies(cookies)
       .userAgent(USER_AGENT)
       .execute();
    

    编辑: 哦,这些确实是正确的凭据。但我在 Chrome 调试器的“网络”选项卡中看到有更多的事情发生和更多的重定向。它很复杂,因为新 URL 的一部分是由 Javascript 生成的。要克服 Jsoup 的限制,请尝试使用 Selenium Webdriver。

    关于java - 使用 JSoup 通过 URL 登录(Java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54968527/

    相关文章:

    java - 在 Java 中存储唯一排序值的最有效方法(最佳性能和最少 gc)是什么?

    java - 使用 JSoup 从 HipHopEarly 网站获取艺术家 + 轨道列表时遇到问题

    java - 泛型:通配符类型的编译错误

    android - 获取第一个元素时奇怪的 jsoup 行为

    java - 允许在 jsoup 选择器中缺少父级

    java - jSoup 从 img 标签获取标题

    java - 当所有div类名和span类名相同时如何使用java中的jsoup找到内部元素

    java - 如何从 HTML 表格中获取特定的标签值

    java - 是否可以构建连接自动关闭的 JCA 适配器?

    java - Hashmap 的 Gson 序列化