presto仪表板+presto worker 机器不稳定

标签 presto trino

我们注意到我们的 presto 集群中有以下奇怪的行为(presto 安装在 Linux 机器上)

我们有 9 台 presto worker 机器,

从 presto 仪表板中我们可以看到,有时有 7-8 活跃工作人员,有时所有 presto 工作人员 - 9

这是正常行为吗?

从 presto 工作日志中我看不到任何异常情况

我不确定我们是否需要搜索任何网络问题或任何其他问题?

enter image description here

注意 - 当我重新启动所有 presto 工作人员时,重新启动后 presto 工作人员在仪表板上保持稳定,但在 5-10 小时后我们再次出现奇怪的行为,我们对此无能为力情况,

注1 - 我们检查 presto 二进制文件是否意外重新启动 - 但事实并非如此,所有 presto 工作程序二进制文件都是稳定的

./launcher status
Running as 22815

我必须另外说一下,Presto 仪表板没有显示哪个 presto 工作人员已关闭,因此很难理解哪些是“坏”presto 工作人员,

*** 在 presto 协调器日志中 - 我们可以看到如下消息:

- but not sure this are related to our issues? 

WARN    http-client-memoryManager-scheduler     com.facebook.presto.memory.RemoteNodeMemory     Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed

最佳答案

对于我的问题给您带来的不便,我深表歉意

其实这是我的错误,我会解释

在这个 presto 集群中,我们有 9 个 presto 工作人员

但我忘记从其他集群中删除相同主机名的工作人员

所以这种行为是因为 3 个重复的主机名( presto 工作人员)

删除重复的 presto 工作人员后,现在 presto 非常稳定

关于presto仪表板+presto worker 机器不稳定,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57418668/

相关文章:

arrays - Presto查询行数组

sql - 从 prestodb 中选择多个列的不同列

sql - 如何在 SQL 中将相关行的值添加到列中

amazon-athena - 雅典娜查询 : No viable alternative at input 'array(select'

Presto - 获取数组元素的总和

amazon-web-services - 转换在 Amazon Athena (Presto) 中无法正常工作?

sql - amazon athena - 从多个表中选择而不连接

json - Amazon athena 无法读取 S3 JSON 对象文件,并且 Athena 选择查询返回 JSON 键列的空结果集

bash - 在 K8s Lifecycle hook 中转义单引号和双引号

amazon-web-services - Presto SQL : TO_UNIXTIME