I am testing what happens when bad things happen to a RabbitMQ cluster so that we have an idea what to expect. &nbsp;This thread is to ask about something unexpected.<div><br></div><div>My basic understanding of the RabbitMQ cluster is what I have read&nbsp;<a href="http://www.rabbitmq.com/ha.html">http://www.rabbitmq.com/ha.html</a>&nbsp;and experienced in my testing. &nbsp;</div><div><br></div><div>My testing scenario was the following. &nbsp;</div><div>What happens if all cluster nodes where shut down at the same time with mirrored persisted data? &nbsp;No clients were attached to the cluster at this time.&nbsp;</div><div>What I was expecting is when the nodes were booted up they would all come back online and figure out what they needed for the master of the queue and not lose any data.</div><div>What I experienced was each server booted up but RabbitMQ failed to start on every cluster server and issued an error plus a "erl_crash.dump". &nbsp;The cluster was dead upon start up. &nbsp;Knowing that RabbitMQ needs to negotiate with the cluster to determine its state of the queue I prepared each server to start rabbitMQ. &nbsp;I quickly started the RabbitMQ service on each server. &nbsp;This allowed the nodes time to find each other and the cluster is back online. &nbsp; The queue is online with the&nbsp;expected&nbsp;101 messages but is currently not a synchronized mirror. &nbsp;Only one node has the queue and the data. The other two nodes support the mirror but are not synchronized with the existing data.</div><div><br></div><div>This is how the test was performed. &nbsp;A 3 server cluster. Each node is a VM guest on a single host running all 3 guest servers. &nbsp;I hard stopped the host which brought down each guest. (preventing the rabbitMQ cluster negotiation of masters and notifications of shutdowns). &nbsp;Restarted the host and restarted each guest at the same time.</div><div><br></div><div>What I am wondering is what is the best way to bring a cluster back online after something like this? &nbsp;Basically the scenario is like a RabbitMQ cluster is found offline. &nbsp;All servers are off. &nbsp;You have to bring on the cluster without data loss to the persisted queues. &nbsp;How would you go about doing this? &nbsp;With an idle cluster might be easier but if you have live clients trying to connect to the cluster ready to use any nodes brought online I bet would be much harder.</div><div>Another question is how to have RabbitMQ come back online from a crash like this better than having to race through all of the servers starting each node.&nbsp;</div><div><br></div><div>-Mark</div><div><br></div>