我需要创建一个Java应用程序(已部分创建),它需要废弃来自tripadvisor网页的所有评论,如下所示: http://www.tripadvisor.com/Hotel_Review-g187323-d233869-Reviews-or10-Hotel_Delta-Berlin.html
我对 web-harverst 非常陌生,所以现在我发现这个未扩展的文本存在问题。要查看完整版本的评论,需要单击“更多”链接,如下所示:
<span class="taLnk hvrIE6 tr162902990 moreLink ulBlueLinks" onclick="ta.util.cookie.setPIDCookie(2247);ta.call('ta.servlet.Reviews.expandReviews',event,this,'review_162902990', '1', 2247)"> More </span>
因此它运行一个脚本并可能询问数据库。 我的问题是:是否有可能在Java中模拟这个“更多”点击 Action ?或者有其他方式获取全文?哪个图书馆可以帮助我?
提前谢谢您。
最佳答案
看来HtmlUnit确实可以做到。但我还是有困难:https://stackoverflow.com/questions/26203701/htmlunit-to-expand-reviews
关于java - 如何使用scraper扩展文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26159114/