<div dir="ltr">Hello,<div><br></div><div>Does anyone on this list have experience running RabbitMQ in the Rackspace hosting provider? If so, how have you dealt with network partitions?<br><div><br></div><div>We have an cluster of 3 rabbitmq nodes hosted in Rackspace. In the last few months we've seen two network partitioning events: there will be some kind of network hiccup, and all 3 rabbit nodes will been partitioned from each other. This requires manual intervention to restart rabbit.</div>
</div><div><br></div><div>We've been experimenting with pause-minority and autoheal  ( <a href="https://www.rabbitmq.com/partitions.html#automatic-handling">https://www.rabbitmq.com/partitions.html#automatic-handling</a> ). We've found that with pause-minority, all 3 nodes end up in a partition with one node, they each then think they're in the minority, and all 3 nodes stop accepting messages.</div>
<div><br></div><div>With autoheal we've found some bizarre errors. In one test the cluster fell into 3 separate parts, and the nodes would not rejoin the cluster. In a second case two of the nodes became partitioned from each other, and the third node would not start. Error message was:</div>
<div><br></div><div>"inet_tcp",{{badmatch,{error,ehostunreach}<br></div></div>