用于网络抓取或网络挖掘的 Java API

标签 java api screen-scraping web-mining

<分区>

我正在寻找一个好的 Java api 来进行网络抓取。我试过 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我认为它有点笨拙。 还有其他建议吗?

最佳答案

我在生产环境中使用 httpunit 来完成这项任务。

关于用于网络抓取或网络挖掘的 Java API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5250410/

相关文章:

java - 解析双java时出错

c# - 延迟后屏幕抓取网页

javascript - api 调用运行次数意外

php - Azure 网站 PHP API - 不允许使用 500 方法

javascript - 使用 JW Player 播放 SkyRadio

python - 尝试通过 Selenium 和 Python 使用 ChromeDriver Chrome 进行抓取时,地址栏显示数据 :,

python - httplib2 是否完全支持 http 代理? socks 代理工作但不是 http

Java十进制到二进制转换错误

java - 我可以使用正则表达式删除 "any whitespace that is not between quotes"吗?

java - 从身份验证后的 Web 获取 XML