java - 从网页中提取通用文章

标签 java extract html-content-extraction

我将开始我的文章提取工作。

我要做的任务是提取不同网页中发布的酒店评论(例如 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html 、 2. http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

我需要用 Java 来完成这个任务,而我在过去的几个月里只是在使用 Java。

这是我关于这些的问题。

  1. 是否有可能以通用方式从不同网页中单独提取评论。

  2. 请告诉我是否有任何 API 支持 Java 中的任务。

  3. 另外,请让我知道您的想法/来源,这将更有利于我完成上述任务。

更新

如果网络上有任何类型的相关示例,请发布相同的示例,因为这可能很有用。

最佳答案

您可能需要一个用于 Java 的屏幕抓取实用程序,例如 TagSoupNekoHTMLJSoup也很受欢迎。

但是,从 Tripadvisor 等第三方网站提取数据时,您还需要考虑更大的法律考虑。他们的政策允许吗?

关于java - 从网页中提取通用文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4152727/

相关文章:

java - 找不到值为 boolean 值类型的属性 'app:vm' 的 GETTER

java - 无法实例化类型 ExpandableListAdapter

java - 最快和优化的方式来读取 xml

PHP 提取字符串的一部分

iphone - 在 iPhone 上解析 HTML

java - 使用 BlobstoreService 和 ImageService 上传/提供从 HTML5 canvas 绘制的图像

php - 如何从 PHP 中的 XML 文档中检索注释

javascript - 将参数传递给函数 onclick jQuery

python - 提取维基百科文章的介绍部分,通过python

php - 从 wsj.com 或 Finance.yahoo.com 抓取