Hi,<div><br></div><div>We are trying to restart our RabbitMQ cluster after an unexpected environment failure.&nbsp;</div><div><br></div><div>We are running:</div><div><ul><li><span style="line-height: normal;">rabbitmq_server-3.1.0 on Windows</span><br></li><li><span style="line-height: normal;">erl5.10.1</span><br></li></ul><div>Our cluster is configured like so:</div></div><div><ul><li><span style="line-height: normal;">web01, web02, web03, web04, web05, app05, app06</span></li></ul><div>During earlier testing we were able to take down any and all of the nodes with a Windows restart and the cluster would recover. Though, after the unexpected crash that brought down the entire cluster the rabbit services will no longer start.</div></div><div><br></div><div>We receive the following error:</div><div><br></div><blockquote style="margin: 0 0 0 40px; border: none; padding: 0px;"><div><div><i><font size="1">C:\Program Files (x86)\RabbitMQ Server\rabbitmq_server-3.1.0\sbin&gt;rabbitmq-server.bat</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; RabbitMQ 3.1.0. Copyright (C) 2007-2013 VMware, Inc.</font></i></div></div><div><div><i><font size="1">&nbsp; ## &nbsp;## &nbsp; &nbsp; &nbsp;Licensed under the MPL. &nbsp;See http://www.rabbitmq.com/</font></i></div></div><div><div><i><font size="1">&nbsp; ## &nbsp;##</font></i></div></div><div><div><i><font size="1">&nbsp; ########## &nbsp;Logs: C:/RabbitMQ/log/rabbit@OTLABWEB02.log</font></i></div></div><div><div><i><font size="1">&nbsp; ###### &nbsp;## &nbsp; &nbsp; &nbsp; &nbsp;C:/RabbitMQ/log/rabbit@OTLABWEB02-sasl.log</font></i></div></div><div><div><i><font size="1">&nbsp; ##########</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Starting broker...</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">BOOT FAILED</font></i></div></div><div><div><i><font size="1">===========</font></i></div></div><div><div><i><font size="1">Timeout contacting cluster nodes: [rabbit@OTLABWEB05,rabbit@OTLABWEB04,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;rabbit@OTLABWEB03,rabbit@OTLABWEB01,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;rabbit@OTLABAPP06,rabbit@OTLABAPP05].</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">DIAGNOSTICS</font></i></div></div><div><div><i><font size="1">===========</font></i></div></div><div><div><i><font size="1">nodes in question: [rabbit@OTLABWEB05,rabbit@OTLABWEB04,rabbit@OTLABWEB03,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; rabbit@OTLABWEB01,rabbit@OTLABAPP06,rabbit@OTLABAPP05]</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">hosts, their running nodes and ports:</font></i></div></div><div><div><i><font size="1">- OTLABAPP05: []</font></i></div></div><div><div><i><font size="1">- OTLABAPP06: []</font></i></div></div><div><div><i><font size="1">- OTLABWEB01: []</font></i></div></div><div><div><i><font size="1">- OTLABWEB03: []</font></i></div></div><div><div><i><font size="1">- OTLABWEB04: []</font></i></div></div><div><div><i><font size="1">- OTLABWEB05: []</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">current node details:</font></i></div></div><div><div><i><font size="1">- node name: rabbit@OTLABWEB02</font></i></div></div><div><div><i><font size="1">- home dir: U:\</font></i></div></div><div><div><i><font size="1">- cookie hash: j9x9r680xF6JzFI7IVDLew==</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">BOOT FAILED</font></i></div></div><div><div><i><font size="1">===========</font></i></div></div><div><div><i><font size="1">Error description:</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp;{could_not_start,rabbit,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp;{bad_return,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;{{rabbit,start,[normal,[]]},</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; {'EXIT',</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; {rabbit,failure_during_boot,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; {error,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; {timeout_waiting_for_tables,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; [rabbit_user,rabbit_user_permission,rabbit_vhost,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;rabbit_durable_route,rabbit_durable_exchange,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;rabbit_runtime_parameters,</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;rabbit_durable_queue]}}}}}}}</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">Log files (may contain more information):</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp;C:/RabbitMQ/log/rabbit@OTLABWEB02.log</font></i></div></div><div><div><i><font size="1">&nbsp; &nbsp;C:/RabbitMQ/log/rabbit@OTLABWEB02-sasl.log</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">{"init terminating in do_boot",{rabbit,failure_during_boot,{could_not_start,rabb</font></i></div></div><div><div><i><font size="1">it,{bad_return,{{rabbit,start,[normal,[]]},{'EXIT',{rabbit,failure_during_boot,{</font></i></div></div><div><div><i><font size="1">error,{timeout_waiting_for_tables,[rabbit_user,rabbit_user_permission,rabbit_vho</font></i></div></div><div><div><i><font size="1">st,rabbit_durable_route,rabbit_durable_exchange,rabbit_runtime_parameters,rabbit</font></i></div></div><div><div><i><font size="1">_durable_queue]}}}}}}}}}</font></i></div></div><div><div><i><font size="1"><br></font></i></div></div><div><div><i><font size="1">Crash dump was written to: erl_crash.dump</font></i></div></div><div><div><i><font size="1">init terminating in do_boot ()</font></i></div></div></blockquote><div><br></div><div>I have attached the log files from web02.</div><div><br></div><div>Reading the groups and Googling we have managed to recreate the cluster before, but at the loss of the queues. We would like to retain our queues and the information they contained. We hope that this is easy to solve, since servers do unexpectedly go down. :(</div><div><br></div><div>Any help would be greatly appreciated.</div><div><br></div><div>Thanks</div><div>Brendan</div>