<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Hello,<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I&#8217;ve been working with several two node clusters running various versions of 3.0.x, hosted on m1.small instances on Ubuntu 12.04.2 LTS in EC2.&nbsp; The setup is essentially as described here
<a href="http://karlgrz.com/rabbitmq-highly-available-queues-and-clustering-using-amazon-ec2/">
http://karlgrz.com/rabbitmq-highly-available-queues-and-clustering-using-amazon-ec2/</a> with the main exception being that both of the RabbitMQ servers are in the same availability zone.&nbsp; A while back I observed a half dozen or so occurrences over the course
 of a week where the clusters would become partitioned, accompanied by a messages on each server such as:<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">=ERROR REPORT==== 17-May-2013::01:56:45 ===<o:p></o:p></p>
<p class="MsoNormal">** Node 'rabbit@oemsg-new-29b15241' not responding **<o:p></o:p></p>
<p class="MsoNormal">** Removing (timedout) connection **<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">=INFO REPORT==== 17-May-2013::01:56:45 ===<o:p></o:p></p>
<p class="MsoNormal">rabbit on node 'rabbit@oemsg-new-29b15241' down<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Looking over the logs and EC2 metrics, I wasn&#8217;t able to identify any other anomalies that coincided with these failures.&nbsp; In particular, the load balancers in front of the cluster nodes did not report any health check failures connecting
 to the amqp port (on a 30 second interval), suggesting that network connectivity was otherwise healthy, and there didn&#8217;t appear to be any unexpected spikes in resource consumption (such as excessive cpu/disk/network activity).&nbsp; The rabbit servers were fairly
 lightly loaded with messaging traffic at the time, and running some load tests against the same servers afterwards didn&#8217;t induce any further failures over the course of several days.&nbsp; I tried increasing the net_ticktime to something like 5 or 10 minutes, but
 still observed a failure with the new value.<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">I left several clusters running over an extended period, most with little or no load, with one cluster running under an extended load test.&nbsp; Several of the clusters experienced no failures over the course of a couple of months, while others
 became partitioned after a while (though they seemed to survive for at least a few weeks before partition).<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal">Anyone experience anything similar in EC2, or have any ideas what else might be done to diagnose what&#8217;s going on?<o:p></o:p></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">Ray Maslinski<o:p></o:p></span></b></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">Senior Software Developer, Engineering</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">Valassis / Digital Media</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">Cell: 585.330.2426</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">maslinskir@valassis.com</span><o:p></o:p></p>
<p class="MsoNormal"><a href="http://www.valassis.com/"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:windowtext">www.valassis.com</span></a><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:black">Creating the future of intelligent media delivery to drive your greatest success<br>
</span><span style="font-size:10.5pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:black"><br>
</span><b><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:black">_____________________________________________________________________________</span></b><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:black"><br>
<br>
This message may include proprietary or protected information. If you are not the intended&nbsp;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;;color:black">recipient, please notify me, delete this message and do not further communicate the information&nbsp;<br>
contained herein without my express consent.<o:p></o:p></span></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</body>
</html>