java - 如何使用scraper扩展文本

标签 java web-scraping

我需要创建一个Java应用程序(已部分创建)，它需要废弃来自tripadvisor网页的所有评论，如下所示: http://www.tripadvisor.com/Hotel_Review-g187323-d233869-Reviews-or10-Hotel_Delta-Berlin.html

我对 web-harverst 非常陌生，所以现在我发现这个未扩展的文本存在问题。要查看完整版本的评论，需要单击“更多”链接，如下所示:

<span class="taLnk hvrIE6 tr162902990 moreLink ulBlueLinks" onclick="ta.util.cookie.setPIDCookie(2247);ta.call('ta.servlet.Reviews.expandReviews',event,this,'review_162902990', '1', 2247)">    More </span>

因此它运行一个脚本并可能询问数据库。我的问题是:是否有可能在Java中模拟这个“更多”点击 Action ？或者有其他方式获取全文？哪个图书馆可以帮助我？

提前谢谢您。

最佳答案

看来HtmlUnit确实可以做到。但我还是有困难:https://stackoverflow.com/questions/26203701/htmlunit-to-expand-reviews

关于java - 如何使用scraper扩展文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26159114/

上一篇：java - grail 中的多个文件上传

下一篇：java - 发生选项卡 fragment 错误并且 fragment 父 Activity 已被破坏

java - 组装 jar 后 - 没有名为 EntityManager 的持久性提供程序

java - 中断整个线程

java - 斯坦福解析器java代码错误

python - 使用 Beautiful Soup 识别 DJIA 数据

web-scraping - (明智的价格比较)IMPORTXML - 导入的内容为空

ruby-on-rails - 缓存过期键

xpath - Xpath 表达式可以访问 shadow-root 元素吗？

JavaFX 的东西不会引用

java - 无法在 Activity 中将小部件中的值显示为 TextView