Thanks Francesco.<br><br>Your script looks reasonably close to what I&#39;m doing, except for a couple of key differences:<br><br>All of your nodes are running on the same host. In my setup, each node is in its own VM. I imagine this introduces additional networking into the communication between nodes.<br>
<br>When you start Rabbit instances, you&#39;re doing it sequentially. In my setup I start up in parallel on all three VMs via Capistrano. If you can&#39;t go the multi-VM route, you may be able to somewhat simulate this by starting the instances with an &#39;&amp;&#39; at the end.<br>
<br>I use &quot;killall -9 beam.smp&quot;, rather than just &quot;killall beam.smp&quot;<br><br><br>In short, the goal of my test is to simulate a worst case powerout in the datacenter. All of our Rabbit instances run on separate VMs for fault tolerance. Hopefully we won&#39;t lose them all at once, but if we do, we need to be able to reliably restart them.<br>
<br><br><br><div class="gmail_quote">On Thu, Jun 21, 2012 at 6:36 AM, Francesco Mazzoli <span dir="ltr">&lt;<a href="mailto:francesco@rabbitmq.com" target="_blank">francesco@rabbitmq.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Matt,<br>
At Tue, 19 Jun 2012 16:33:05 -0700,<br>
Matt Pietrek wrote:<br>
&gt; Francesco,<br>
&gt;<br>
<div class="im">&gt; Thanks again for the valuable insight from your reply. I&#39;m down to<br>
&gt; one issue at this point.<br>
&gt;<br>
&gt; Given what you said earlier about it being OK to start the brokers<br>
&gt; in any order, I wrote a simple &quot;catastrophic stress&quot; test. The good<br>
&gt; news is that RabbitMQ does what&#39;s expected. The bad news: Only most<br>
&gt; of the time, i.e. about 90%.<br>
<br>
</div>First of all, this is more of an erlang question than a RabbitMQ one -<br>
not that this changes anything, but you could ask about it in<br>
erlang-questions as well. RabbitMQ clusters are mnesia clusters, so<br>
they offer the same guarantees.<br>
<br>
I can&#39;t think of a motivation of why this would be happening, but I&#39;m<br>
no expert with mnesia. I&#39;ve attached a script that reproduces your<br>
test, can you verify that that&#39;s more or less what you&#39;re doing? I&#39;m<br>
using the puka python client to publish the messages. I&#39;ve run it 50<br>
times but I wasn&#39;t able to reproduce your problem.<br>
<br>
In the case that my test is indeed accurate I think that the best<br>
thing is to ask about someone with more mnesia knowledge - I have CCed<br>
possible candidates :).<br>
<span class="HOEnZb"><font color="#888888"><br>
Francesco.<br>
<br>
</font></span></blockquote></div><br>