I'm hoping to automate the clustering steps with Chef and I have one pivotal question:&nbsp;If I have a cluster with three disc nodes in the cloud and one of them goes down and is gone forever, will the other nodes eventually give up on treating it as a disc node?<div><br></div><div>In that scenario, cluster_status would look something like this after kevin-rabbit1 terminated forever:</div><div><br></div><div><div>Cluster status of node 'rabbit@kevin-rabbit2' ...</div><div>[{nodes,[{disc,['rabbit@kevin-rabbit3','rabbit@kevin-rabbit2',</div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 'rabbit@kevin-rabbit1']}]},</div><div>&nbsp;{running_nodes,['rabbit@kevin-rabbit3','rabbit@kevin-rabbit2']}]</div><div>...done.</div></div><div><br></div><div>The cluster just thinks that kevin-rabbit1 is "off" and that it might come back someday, right? Is there any way for me to tell the cluster "sorry guys, that node is dead _forever_. Just forget about it and move on with your lives."</div><div><br></div><div>I saw this language in the cluster docs which makes me concerned about making sure that the cluster_status is clean and up to date with what nodes are alive and dead.</div><div><br></div><div><p style="clear: left; color: rgb(85, 85, 85); font-family: Verdana, sans-serif; text-align: left; ">There are some important caveats:</p><ul style="margin: 0px; padding: 0px; color: rgb(85, 85, 85); font-family: Verdana, sans-serif; line-height: 18px; text-align: left; "><li style="list-style-type: none; background-image: url(http://www.rabbitmq.com/img/li.gif); margin: 0px; padding: 3px 0px 2px 10px; background-position: 1px 9px; background-repeat: no-repeat no-repeat; ">All disk nodes must be running for certain operations, most notably leaving a cluster, to succeed.</li><li style="list-style-type: none; background-image: url(http://www.rabbitmq.com/img/li.gif); margin: 0px; padding: 3px 0px 2px 10px; background-position: 1px 9px; background-repeat: no-repeat no-repeat; ">At least one disk node should be running at all times.</li><li style="list-style-type: none; background-image: url(http://www.rabbitmq.com/img/li.gif); margin: 0px; padding: 3px 0px 2px 10px; background-position: 1px 9px; background-repeat: no-repeat no-repeat; ">When all nodes in a cluster have been shut down, restarting any node will suspend for up to 30 seconds and then fail if the last disk node that was shut down has not been restarted yet. Since the nodes do not know what happened to that last node, they have to assume that it holds a more up-to-date version of the broker state. Hence, in order to preserve data integrity, they cannot resume operation until that node is restarted.</li></ul></div><div><br></div><div>That's why I want to make sure that the other nodes know that the lost disc node is never, ever coming back.&nbsp;</div><div><br></div><div>Anyway thanks. Any insight will help :)</div><div><br></div><div>Kevin Nuckolls</div><div>Senior Software Engineer</div><div>Mosaik Solutions</div><div><br></div>