java - 如何增量爬取github信息并处理信息?

标签 java github-for-windows

我正在使用 java 和 GitHub API 在 Windows 7 中抓取 GitHub 信息。

  1. 我想知道我怎么知道一个项目的信息更新了。例如,当一个新的贡献者加入一个项目时,GitHub 可以通知我吗?或者我应该不时地爬取这些信息(就像每个 X小时爬行)。

  2. 你能给我一些关于处理这些数据的建议吗?我的意思是当一个项目的源代码更新时(有一个提交更改了原始代码),我是否应该删除原始代码并将新代码复制到我的计算机并添加有关此操作的条目?

最佳答案

您可以使用 GitHub API Webhooks 获取有关事件的通知。例如。如果您想在新贡献者加入项目时收到通知,您需要为以下事件设置 Webhook:

team_add Any time a team is added or modified on a Repository.

还有一个通配符事件 (*) 将匹配所有事件。 GitHub 提供了一个关于如何设置和使用 Webhooks 的很好的教程。 .

在处理数据方面,我想这取决于你对源代码做了什么。例如,如果您要使用一些静态分析工具扫描代码以查找错误,那么您可以只保留新版本的代码。否则,如果您要对整个提交历史进行一些分析,那么您可以跟踪所有修改和更改。

关于java - 如何增量爬取github信息并处理信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27698331/

相关文章:

git - Github for Windows 崩溃后如何恢复存储库?

go - 我不能 "go get"来自 github 的依赖

java - 如何将位图图像的注册点设置为底部中心?

Java 线程开销。我应该使用套接字还是套接字 channel ?

java - Guava的ImmutableList的线程安全靠什么保证?

java - 从 MySql 数据库获取 UnitPrice 值时出错

windows - 启动应用程序(如果已安装)或重定向以下载 - Windows

javascript - 如何使用 SQL 作为数据库和 JSP 在 Google map 上添加多个标记?

gitignore - 在 Windows 上使用 GitHub 忽略文件

git - 如何在 Console2 中包装来自 Github for Windows 的 bash shell?