sql-server - 使用 Tableau 创建仪表板的 Hive 性能?

标签 sql-server hadoop hive tableau-api

我们计划在 Azure 云中实现一个项目,其中数据存储目前将是 Azure 数据湖, future 将实现 HDP,ADLS 将成为扩展数据节点。我们希望从 ADLS 公开数据以使用 Tableau 创建仪表板。最初的计划是使用 Hive,Tableau 将通过 Hive 连接到数据。但是这里出现了性能问题:

  1. 将有多个用户可以通过 Tableau 访问数据(100+)

  2. 我们还必须通过 API 调用将数据公开给不同的门户。

这意味着将同时建立多个连接,这将命中 hive 。我的问题是:

  1. hive 能用最少的时间达到目​​的吗?

  2. 如何衡量绩效?

  3. 我不想让我的用户在 tableau 中运行查询后坐等很长时间才能看到仪表板。

您能分享一下您在这个设计问题上的经验吗?我们应该使用 Hive 还是应该使用其他一些具有更好性能的工具来处理 tableau 和 HDFS 存储。有人建议我使用 Azure SQL Server 并将 Tableau 连接到 SQL Server。但这又是老套路,也是成本问题,因为价格与每个查询的执行有关。

如果您有更好的解决方案经验请分享,不胜感激。

提前致谢。

最佳答案

Hive LLAP 可以工作,如果你能安装它的话。

否则,在我的工作中,我们在 S3 数据上使用 PrestoDB 和 Tableau 有很好的经验。

一些团队使用 Spark SQL,您可以设置一个 Spark Thrift 服务器,它应该与 Hive JDBC/ODBC 驱动程序兼容

关于sql-server - 使用 Tableau 创建仪表板的 Hive 性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53655489/

相关文章:

sql - 在 REPLACE 函数中使用列值作为字符串模式

sql-server - SQL Server 中的负数据库 ID

hadoop - Hadoop Reduce child 中的 OOM 异常

SQL/Presto SQL : sum by group in a same column

mysql - Hive 连接多个表和 where 语句

sql-server - 内连接后面不直接跟 ON 子句的 SQL 连接是什么类型?

sql - 启用此多读取器解决方案的适当隔离级别是多少?

hadoop - hadoop(PIG/MapReduce)如何处理非结构化文本数据

hadoop - Cassandra WordCount Hadoop

mysql - hive-metastore 无法在 cloudera manager 安装过程中启动