java - 如何实现社交媒体/网站监控服务?

标签 java monitoring

我想实现某种服务,我的客户可以使用它来找到他们的公司 A。博客、论坛 b. Facebook 、推特 C。评论网站

a.博客、论坛 这只能由爬虫完成,对吗?爬虫在论坛/博客上查找 robots.txt,然后选择性地读取论坛/博客的内容(当然还有链接)。 但从哪里开始呢?我可以使用一组网站来开始抓取吗?我是否必须预先定义它们,或者我可以先使用其他搜索引擎吗?例如。在 Google 中搜索该公司,然后抓取 SERP?合法吗?

b. Facebook 、推特 他们有 API,所以我认为这应该不是问题。

c.评论网站 我查看了一些评论网站的服务条款,他们写道,不允许使用自动化软件抓取其网站。另一方面,与我相关的网站在其 robots.txt 中并未被禁止。这里重要什么?

欢迎任何其他提示。

提前致谢:-)

最佳答案

老实说,最简单的方法就是从搜索引擎开始。它们都具有用于执行自动搜索的 API,因此这可能会给您在获取客户产品或品牌的返回链接/提及方面所花费的时间带来最高返回。

这不会处理身份验证背后的事情,只能处理公共(public)的事情(当然)。但它会给你一个良好的起点。从那里,您可以(如果您愿意)使用 API 或自定义编写的机器人,这些机器人在网站上获得了身份验证信用,但老实说,我认为在这一点上您错过了核心问题。

核心问题是“哪里提到了我们?”或者核心问题真的是……“哪些网站为我们带来了流量?”在大多数情况下,是后者,在这种情况下,您可以忽略我之前所说的所有内容,只使用 Google Analytics(分析)或客户网站上的类似软件来确定流量来自何处。

编辑 好的,所以如果这是我们提到的地方,我仍然会按照所述从搜索引擎开始。 Google 的 api 非常简单,并且它有一个基于 SOAP 的 API,如果您愿意,您可以将其作为 Web 引用; example

回复:评论网站。如果网站的服务条款规定您不能使用自动化机器人,那么最好不要使用自动化机器人。 robots.txt 不具有法律约束力(这有点像好邻居),所以我不会不利用缺乏排除来获得许可。一些评论网站(更现代的网站)可能不允许自动抓取其网站,但他们可能仍然发布 RSS 提要或 Atom 提要,或者有一些其他您可以连接的 API,这值得检查。

关于java - 如何实现社交媒体/网站监控服务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4634685/

相关文章:

java - 如何为多个服务器配置 appdynamics?

python - Python 中有没有流行的库来监控 Linux/Unix 系统?

java - 找到字体真实边界的最佳方法

java - 动态 JSON 传递给 REST Web 服务并使用它将数据插入 mysql 数据库

java - 提高 HTTPClient 连接 Android 的速度

java - HPROF结果解释

Java进程执行 "tail -f test.log | grep abc"无法得到任何输出

docker - Docker Containers 和 Swarm 的有效监控解决方案?

ruby - 如果将 Ruby 与 Net/HTTP 结合使用,如何在 Windows 上使用 Fiddler 或在 Mac/Linux 上使用其他工具来监控其流量?

monitoring - 从电报发送指标到普罗米修斯