我将开始我的文章提取工作。
我要做的任务是提取不同网页中发布的酒店评论(例如 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html 、 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )
我需要用 Java 来完成这个任务,而我在过去的几个月里只是在使用 Java。
这是我关于这些的问题。
是否有可能以通用方式从不同网页中单独提取评论。
请告诉我是否有任何 API 支持 Java 中的任务。
另外,请让我知道您的想法/来源,这将更有利于我完成上述任务。
更新
如果网络上有任何类型的相关示例,请发布相同的示例,因为这可能很有用。
最佳答案
您可能需要一个用于 Java 的屏幕抓取实用程序,例如 TagSoup或NekoHTML 。 JSoup也很受欢迎。
但是,从 Tripadvisor 等第三方网站提取数据时,您还需要考虑更大的法律考虑。他们的政策允许吗?
关于java - 从网页中提取通用文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4152727/