<div dir="ltr">Simon,<div><br></div><div>Thanks for the suggestions.</div><div><br></div><div>I did read all the relevant documentation and I agree with you that changing nettick would just mask the problem.<br></div><div>
<br></div><div>The nodes are not being suspended but something still causes mnesia partitioning. </div><div>The only thing I can think of on the application level is if there are so many messages between nodes that the nettick doesn't get through. Not likely though.</div>
<div><br></div><div>I will upgrade to the latest version and try to diagnose problems on the vmware level.</div><div><br></div><div><br></div><div>Thanks,</div><div><br></div><div>Zsolt</div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Fri, Nov 29, 2013 at 5:41 AM, Simon MacMullen <span dir="ltr"><<a href="mailto:simon@rabbitmq.com" target="_blank">simon@rabbitmq.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Well, first of all lots of people are running clusters on virtual machines perfectly happily, so it should be possible!<br>
<br>
If you are seeing running_partitioned_network events on your cluster, that's quite alarming, that would imply (assuming your network is reliable) that nodes are being suspended by the hypervisor for at least a minute or so - which sounds excessive. Unless you are suspending the nodes yourself (in which case I suggest you don't do that). But I've not seen ESX do that in my limited experience with it.<br>

<br>
You could increase net_ticktime (<a href="http://www.rabbitmq.com/nettick.html" target="_blank">http://www.rabbitmq.com/<u></u>nettick.html</a>) to cover this up, but it feels like a band aid at this point.<br>
<br>
You should probably read <a href="http://www.rabbitmq.com/partitions.html" target="_blank">http://www.rabbitmq.com/<u></u>partitions.html</a> if you haven't already done so.<br>
<br>
Finally, you mention mirrored queues. Note that we have fixed a large number of bugs in the mirrored queue implementation since 2.8.2 (and quite a few since 3.0.1) so upgrading is likely to be a good idea.<br>
<br>
Cheers, Simon<br>
<br>
On 27/11/2013 20:23, <a href="mailto:zsolt.erl@gmail.com" target="_blank">zsolt.erl@gmail.com</a> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
I'm trying to find out if there are any recommendations for running<br>
RabbitMq on VMWare ESXi? (eg. clustering, queue mirroring)<br>
<br>
I have several 4 node clusters running on ESXi4/5 guests. The guests are<br>
Ubuntu 10.04 VMs.<br>
Erlang version: R15B. RabbitMq versions: 2.8.2 and 3.0.1 .<br>
<br>
The clusters seem to randomly crash every once in a while (about once<br>
every 2 months).<br>
Sometimes the whole cluster crashes, sometimes only a couple nodes and<br>
the others either work or become unreachable.<br>
Logs only show that the nodes lost connection.<br>
I'm running 4 node clusters with 1 disk node and about 100 queues<br>
mirrored across 2-3 nodes.<br>
The same thing was happening when I was running a cluster with 4 disk<br>
nodes.<br>
<br>
Are there any recommended best practices in regards to Virtual Machine<br>
settings, VMWare network settings or OS settings that could<br>
prevent these random crashes?<br>
Would federation be a better solution then clustering in a virtual<br>
environment? Or should I just run them on physical hardware?<br>
<br>
<br>
I realize there's not enough data here to find out what is happening<br>
exactly but I'm just trying to see if anybody came across similar<br>
problems and were able to handle it?<br>
<br>
<br>
<br>
Thanks,<br>
<br>
Zsolt<br>
<br>
<br>
<br>
<br>
<br>
<br>
______________________________<u></u>_________________<br>
rabbitmq-discuss mailing list<br>
<a href="mailto:rabbitmq-discuss@lists.rabbitmq.com" target="_blank">rabbitmq-discuss@lists.<u></u>rabbitmq.com</a><br>
<a href="https://lists.rabbitmq.com/cgi-bin/mailman/listinfo/rabbitmq-discuss" target="_blank">https://lists.rabbitmq.com/<u></u>cgi-bin/mailman/listinfo/<u></u>rabbitmq-discuss</a><br>
<br>
</blockquote>
<br>
</blockquote></div><br></div>