hbase - 实时流数据分析

标签 hbase bigdata streaming spark-streaming apache-kafka-streams

<分区>

这是一个相对广泛的问题,我知道我可能需要使用工具来解决这样的问题(例如 Spark、Kafka 和 Hadoop),但我正在从经验丰富的专业人士的角度寻找具体的愿景

手头的问题是这样的:

我们正在使用类似谷歌分析的服务,它向我们发送事件流。事件是在页面上执行的操作。它可以是单击按钮、鼠标移动、页面滚动或我们定义的自定义事件。

{
"query_params":[

],
"device_type":"Desktop",
"browser_string":"Chrome 47.0.2526",
"ip":"62.82.34.0",
"screen_colors":"24",
"os":"Mac OS X",
"browser_version":"47.0.2526",
"session":1,
"country_code":"ES",
"document_encoding":"UTF-8",
"city":"Palma De Mallorca",
"tz":"Europe/Madrid",
"uuid":"A37F2D3A4B99FF003132D662EFEEAFCA",
"combination_goals_facet_term":"c2_g1",
"ts":1452015428,
"hour_of_day":17,
"os_version":"10.11.2",
"experiment":465,
"user_time":"2016-01-05T17:37:10.675000",
"direct_traffic":false,
"combination":"2",
"search_traffic":false,
"returning_visitor":false,
"hit_time":"2016-01-05T17:37:08",
"user_language":"es",
"device":"Other",
"active_goals":[
1
],
"account":196,
"url”:”http://someurl.com”,
“action”:”click”,
"country":"Spain",
"region":"Islas Baleares",
"day_of_week":"Tuesday",
"converted_goals":[

],
"social_traffic":false,
"converted_goals_info":[

],
"referrer”:”http://www.google.com”,
"browser":"Chrome",
"ua":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36",
"email_traffic":false
}

现在我们需要构建一个解决方案来分析这些数据。我们需要做一个报告平台,可以聚合、过滤和切分数据。

我们需要构建的报告的一个例子是

显示所有来自美国并使用 chrome 浏览器和在 iPhone 上使用该浏览器的用户。

显示来自 referrer = “http://www.google.com 的所有用户对特定按钮的点击总和” 并且总部位于印度以外,正在使用 Desktop。 一天之内,该服务发送数百万个此类事件,每天的数据量达 GB。

下面是我的具体疑惑

  • 我们应该如何存储如此庞大的数据
  • 我们应该如何使自己能够实时分析数据。
  • 查询系统应该如何在这里工作(我对这部分比较无知)
  • 如果我们要维护大约 4 TB 的数据,我们估计这些数据会在 3 个月内累积,那么保留这些数据的策略应该是什么。我们应该何时以及如何删除它?

最佳答案

  1. 我们应该如何存储如此庞大的数据。

使用云存储提供商之一 ( link ) 根据日期和时间 (date=2018-11-25/hour=16) 对数据进行分区,这将减少每次查询读取的数据量。以 parquet 或 ORC 等二进制格式之一存储数据,将为您提供更好的性能和压缩率。

  1. 我们应该如何使自己能够实时分析数据。

您可以运行多个应用程序来监听一个 kakfa 主题。首先使用带有连续模式应用程序 (link) 的 spark structured streaming 2.3 将事件存储到存储器中。这将为您提供查询和分析历史数据以及在需要时重新处理事件的选项。您在这里有两个选择:

  1. 存储在 hdfs/s3/gcp 存储等中。在存储的数据上构建一个配置单元目录以获取事件的实时 View 。可以使用spark/hive/presto查询数据。注意:如果正在生成小文件,则需要压缩。

  2. 存储在 Cassandra 或 HBase 等宽列存储中。 link对于这个用例,我更喜欢这个选项。

并行运行另一个 spark 应用程序进行实时分析,如果您知道必须聚合数据的维度和指标,请使用带窗口的 spark 结构化流。您可以每分钟或 5 分钟按列和窗口分组,并存储在上述可以实时查询的存储提供程序之一中。 link

  1. 这里的查询系统应该如何工作

如答案 3 中所述,在存储的数据上构建一个 Hive 目录以获得事件的实时 View 。出于报告目的,使用 spark/hive/presto 查询数据。 如果查询实时数据,请使用 Cassandra 或 HBase 作为低延迟系统。

  1. 如果我们要维护大约 4 TB 的数据,我们估计这些数据会在 3 个月内累积,那么保留这些数据的策略应该是什么。我们应该何时以及如何删除它?

如果您对数据进行了适当的分区,您可以根据定期归档规则将数据归档到冷备份中。例如,可以维护从事件生成的维度和指标,并且可以在 1 个月后归档事件。

关于hbase - 实时流数据分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53449122/

相关文章:

hadoop - Hive - 如何查询表以获取其自己的名称?

ffmpeg - 如何在 Windows 上将多个输入流式传输到多个输出?

streaming - Apache 光束 : Error assigning event time using Withtimestamp

scala - 使用 Scala 将 SparkRDD 写入 HBase 表

hadoop - 无法启动HBase的独立实例

algorithm - Neo4J - 在非常大的图形上寻找最宽的路径

mysql - 正确的数据库设计,在数据库中存储大量的股票加密货币数据

iOS 原生网络应用和音频流

hadoop - Hbase memstore 手动刷新

hadoop - 修复 HBase 表(过渡中未分配区域)