我们计划在 Azure 云中实现一个项目,其中数据存储目前将是 Azure 数据湖, future 将实现 HDP,ADLS 将成为扩展数据节点。我们希望从 ADLS 公开数据以使用 Tableau 创建仪表板。最初的计划是使用 Hive,Tableau 将通过 Hive 连接到数据。但是这里出现了性能问题:
将有多个用户可以通过 Tableau 访问数据(100+)
我们还必须通过 API 调用将数据公开给不同的门户。
这意味着将同时建立多个连接,这将命中 hive 。我的问题是:
hive 能用最少的时间达到目的吗?
如何衡量绩效?
我不想让我的用户在 tableau 中运行查询后坐等很长时间才能看到仪表板。
您能分享一下您在这个设计问题上的经验吗?我们应该使用 Hive 还是应该使用其他一些具有更好性能的工具来处理 tableau 和 HDFS 存储。有人建议我使用 Azure SQL Server 并将 Tableau 连接到 SQL Server。但这又是老套路,也是成本问题,因为价格与每个查询的执行有关。
如果您有更好的解决方案经验请分享,不胜感激。
提前致谢。
最佳答案
Hive LLAP 可以工作,如果你能安装它的话。
否则,在我的工作中,我们在 S3 数据上使用 PrestoDB 和 Tableau 有很好的经验。
一些团队使用 Spark SQL,您可以设置一个 Spark Thrift 服务器,它应该与 Hive JDBC/ODBC 驱动程序兼容
关于sql-server - 使用 Tableau 创建仪表板的 Hive 性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53655489/