Just a quick thing, but I have also noticed this behaviour on both 1.8 and 2.0, when being used with Celery.<div><br></div><div>I don&#39;t know why it happens, the error log shows nothing has gone wrong....</div><div><br>
</div><div>In the end I had to abandon RabbitMQ because of this :/<br><br><div class="gmail_quote">On Tue, Sep 14, 2010 at 8:13 PM, Noah Fontes <span dir="ltr">&lt;<a href="mailto:nfontes@cynigram.com">nfontes@cynigram.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">-----BEGIN PGP SIGNED MESSAGE-----<br>
Hash: SHA1<br>
<br>
Hello Dave,<br>
<div class="im"><br>
On 09/14/2010 10:11 AM, Dave Greggory wrote:<br>
&gt; So it happened again this morning.<br>
&gt;<br>
&gt; rabbitmqctl status, list_connections and list_exchanges worked, but list_queues<br>
&gt; and list_channels hung.<br>
&gt;<br>
&gt; This time there were no errors in the log, unlike the last time. This has been<br>
&gt; quite common, that when it happens there&#39;s nothing in the logs. That&#39;s why I<br>
&gt; didn&#39;t report it any earlier. Very mysterious.<br>
<br>
</div>This is quite interesting. We observed this behavior as well --<br>
list_queues and list_channels hanging. This was also reflected in<br>
consumers/publishers: we could publish messages fine, but trying to read<br>
from a queue (or even delete one) would hang usually indefinitely.<br>
<br>
We also noted that if we repeatedly attempted to run list_queues the RPC<br>
call would eventually succeed -- maybe once out of 10 or 15 runs. With<br>
the exception of certain queues building up with messages (as I<br>
mentioned above) everything looked fine.<br>
<br>
It started when we switched from 1.7.x to 1.8.x (which we&#39;re still<br>
running for the moment). It only seems to happen when nodes are<br>
clustered; I&#39;ve never seen the problem on a non-clustered instance.<br>
<br>
I&#39;ll try to grab some more information when/if it happens again for us.<br>
<br>
I also haven&#39;t seen the issue occur in probably about 3 weeks now. It&#39;s<br>
very sporadic, although I think I&#39;ve seen it happen more than once in a<br>
day (and then not again for a long time).<br>
<div class="im"><br>
&gt; I have attached the output of status, list_connections, dmesg, and lsof from<br>
&gt; both rabbitmq nodes in the cluster.<br>
<br>
</div>FWIW, here&#39;s the minimal information I can offer now:<br>
<br>
- - We have a four-node cluster of two disk nodes and two memory nodes<br>
across two physical servers.<br>
- - We&#39;re running RabbitMQ 1.8.1 with no additional plugins:<br>
{rabbit,&quot;RabbitMQ&quot;,&quot;1.8.1&quot;},<br>
{mnesia,&quot;MNESIA  CXC 138 12&quot;,&quot;4.4.13&quot;},<br>
{os_mon,&quot;CPO  CXC 138 46&quot;,&quot;2.2.5&quot;},<br>
{sasl,&quot;SASL  CXC 138 11&quot;,&quot;2.1.9&quot;},<br>
{stdlib,&quot;ERTS  CXC 138 10&quot;,&quot;1.16.5&quot;},<br>
{kernel,&quot;ERTS  CXC 138 10&quot;,&quot;2.13.5&quot;}<br>
<br>
This is erlang R13B04 on SuSE Linux.<br>
<br>
Hopefully this can shed a *little* more light on the problem. Sorry I<br>
can&#39;t offer more details at the moment.<br>
<br>
Regards,<br>
<br>
Noah<br>
<div><div></div><div class="h5"><br>
&gt; ----- Original Message ----<br>
&gt; From: Dave Greggory &lt;<a href="mailto:davegreggory@yahoo.com">davegreggory@yahoo.com</a>&gt;<br>
&gt; To: Matthew Sackman &lt;<a href="mailto:matthew@rabbitmq.com">matthew@rabbitmq.com</a>&gt;; <a href="mailto:rabbitmq-discuss@lists.rabbitmq.com">rabbitmq-discuss@lists.rabbitmq.com</a><br>
&gt; Sent: Mon, September 13, 2010 11:48:44 AM<br>
&gt; Subject: Re: [rabbitmq-discuss] RabbitMQ 2.0 hanging<br>
&gt;<br>
&gt; Wow... ok.<br>
&gt;<br>
&gt; I&#39;ll grab lsof / dmesg / syslog output next time this happens.<br>
&gt;<br>
&gt; Thanks for looking into it. Much appreciated.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; ----- Original Message ----<br>
&gt; From: Matthew Sackman &lt;<a href="mailto:matthew@rabbitmq.com">matthew@rabbitmq.com</a>&gt;<br>
&gt; To: <a href="mailto:rabbitmq-discuss@lists.rabbitmq.com">rabbitmq-discuss@lists.rabbitmq.com</a><br>
&gt; Sent: Mon, September 13, 2010 10:53:24 AM<br>
&gt; Subject: Re: [rabbitmq-discuss] RabbitMQ 2.0 hanging<br>
&gt;<br>
&gt; Hi Dave,<br>
&gt;<br>
&gt; Sorry for the delay in getting back to you.<br>
&gt;<br>
&gt; Your node1 log had this in it:<br>
&gt;<br>
&gt; =ERROR REPORT==== 8-Sep-2010::09:45:43 ===<br>
&gt; ** Generic server &lt;0.29.0&gt; terminating<br>
&gt; ** Last message in was {&#39;EXIT&#39;,&lt;0.30.0&gt;,eio}<br>
&gt; ** When Server state == {state,user_sup,undefined,&lt;0.30.0&gt;,<br>
&gt;                                {&lt;0.29.0&gt;,user_sup}}<br>
&gt; ** Reason for termination ==<br>
&gt; ** eio<br>
&gt;<br>
&gt; This is utterly bizarre - we&#39;ve never seen it before and it was<br>
&gt; certainly enough to take down the node1 or at least hang it.<br>
&gt;<br>
&gt; node2 log has:<br>
&gt;<br>
&gt; =ERROR REPORT==== 8-Sep-2010::09:41:38 ===<br>
&gt; ** Generic server delegate_process_0 terminating<br>
&gt; ** Last message in was {&#39;$gen_cast&#39;,{thunk,#Fun&lt;delegate.4.123807736&gt;}}<br>
&gt; ** When Server state == no_state<br>
&gt; ** Reason for termination ==<br>
&gt; ** {noproc,{gen_server2,call,<br>
&gt;                         [{delegate_process_1,&#39;rabbit@ent-jms-qa-1&#39;},<br>
&gt;                          {thunk,#Fun&lt;delegate.5.131821234&gt;},<br>
&gt;                          infinity]}}<br>
&gt;<br>
&gt; This is basically node2 finding that node1 has gone down. This suggests<br>
&gt; (as does your timeline) that node1 actually failed some time previously<br>
&gt; but that the immediate error was not logged and only at some later point<br>
&gt; did a very generic &quot;eio&quot; come out of it - literally error in some form<br>
&gt; of IO operation.<br>
&gt;<br>
&gt; Now the eio comes out of process &lt;0.30.0&gt; which is a process which is<br>
&gt; started very early on in the Erlang VM boot process. I can&#39;t quite tell<br>
&gt; what the user_sup process is meant to be doing - it&#39;s so far buried that<br>
&gt; there&#39;s no documentation for it. It&#39;s quite possible you&#39;ve found a bug<br>
&gt; in Erlang itself. Even having googled around for a while, I still can&#39;t<br>
&gt; really find out what &quot;user&quot; is for - the best I can find is:<br>
&gt; &quot;user is a server which responds to all the messages defined in the I/O<br>
&gt; interface. The code in user.erl can be used as a model for building<br>
&gt; alternative I/O servers.&quot; so that&#39;s nice and clear. Anyway, my guess is<br>
&gt; some error came out of said I/O server, took out user and user_sup which<br>
&gt; was then logged. But as to what the fault actually was, I&#39;m afraid I<br>
&gt; have no idea.<br>
&gt;<br>
&gt; When this next happens, any chance you could check things like number of<br>
&gt; open file descriptors, see if there&#39;s any kernel log messages relevant<br>
&gt; etc? Sorry I can&#39;t be more helpful - it&#39;s just not something we&#39;ve ever<br>
&gt; come across before.<br>
&gt;<br>
&gt; Matthew<br>
</div></div>-----BEGIN PGP SIGNATURE-----<br>
Version: GnuPG v1.4.10 (GNU/Linux)<br>
<br>
iEYEARECAAYFAkyPyWEACgkQhitK+HuUQJRLpwCgnYY/YF8xTUW8xowocWKKPzbJ<br>
BzUAn1aRtruRAgp/23v4mZB1JJXrBIaE<br>
=CEzP<br>
-----END PGP SIGNATURE-----<br>
<div><div></div><div class="h5">_______________________________________________<br>
rabbitmq-discuss mailing list<br>
<a href="mailto:rabbitmq-discuss@lists.rabbitmq.com">rabbitmq-discuss@lists.rabbitmq.com</a><br>
<a href="https://lists.rabbitmq.com/cgi-bin/mailman/listinfo/rabbitmq-discuss" target="_blank">https://lists.rabbitmq.com/cgi-bin/mailman/listinfo/rabbitmq-discuss</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><p style="color:rgb(0, 51, 102);font-weight:bold"><span style="border-collapse:separate;font-family:arial;line-height:normal;font-size:small">Cal Leeming</span></p>
<p style="color:rgb(0, 51, 102);font-weight:bold">Operational Security &amp; Support Team<br></p><p style="border-bottom-width:1px;border-bottom-style:solid;border-bottom-color:rgb(204, 204, 204);padding-bottom:25px"><b>Out of Hours: </b>+44 (07534) 971120 | <b>Support Tickets: </b><a href="mailto:support@simplicitymedialtd.co.uk" style="color:rgb(49, 132, 173)" target="_blank">support@simplicitymedialtd.co.uk</a> <br>
<b>Fax: </b>+44 (02476) 578987 | <b>Email: </b><a href="mailto:cal.leeming@simplicitymedialtd.co.uk" style="color:rgb(49, 132, 173)" target="_blank">cal.leeming@simplicitymedialtd.co.uk</a> <br><b>IM: </b>AIM / ICQ / MSN / Skype (available upon request)</p>
<div><span style="line-height:13px;font-size:10px;color:rgb(185, 184, 184)">Simplicity Media Ltd. All rights reserved.<br></span></div><div><span style="line-height:13px;font-size:10px;color:rgb(185, 184, 184)">Registered company number 7143564</span></div>
<br>
</div>