<p dir="ltr">&quot;single node with ~35k active open filehandles&quot;</p>
<p dir="ltr">I assume, all those file handles point to same content? If this would be the case, programmers should go back to school, learn from scratch.</p>
<p dir="ltr">Where does this come from?</p>
<div class="gmail_quote">Am 03.10.2013 23:04 schrieb &quot;Graeme N&quot; &lt;<a href="mailto:graeme@sudo.ca">graeme@sudo.ca</a>&gt;:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div><div><div><div><div><div>Hey everyone,</div><div><br></div>I&#39;ve recently been doing a deployment of a 5 node rabbit cluster, and found some rough edges I thought I should share. I realize many of these are feature reqs, but I&#39;m hoping that I just haven&#39;t discovered the proper configuration to deal with some of these issues, or have misunderstood Rabbit&#39;s behaviour. If not, hopefully they can become feature req items that&#39;ll make a dev schedule at some point.<br>


<br></div><div>All items below were discovered while deploying 3.1.5 over the past few days. Hosts in question have 24 sandy bridge HT cores, 64GB of RAM, XFS filesystem, running on CentOS 6. Cluster is 5 nodes, with a default HA policy on all queues of exact/3/automatic-sync.<br>


</div><br></div><div>HA / Clustering:<br></div><div><br>- expected queues to be distributed evenly among cluster machines, instead got all queues on first 3 machines in the cluster, nothing on the last 2.<br></div><div>- expected message reads from a mirror machine for a queue to do the read i/o locally, so as to spread out workload, but it appears to always go to the host where the queue was created.<br>


</div><div>- this led to a single node with ~35k active open filehandles, and 4 nodes with ~90. not an optimum distribution of read workload.<br></div><div>- expected that if system a queue was created on is permanently removed (shut down and &quot;rabbitmqctl forget_cluster_node hostname&quot;&#39;d), automatic sync would ensure there&#39;s the right number of copies replicated, but instead it just left every single queue under replicated.<br>

</div><div>- when a new policy is applied that defines specific replication nodes, or a number of copies using &#39;exact, and auto-sync is set, sometimes it just syncs the first replica and leaves any others unsynced and calls it job done. This is bad.<br>


</div><div>- had to add a new global HA policy and delete the existing one before rabbit fixed my queue replication.<br></div><div>- Attempted to create small per-queue policies to redistribute messages and then delete the per-queue policies, but this often leads to a inconsistent cluster state where queues continued to show as being part of a policy that was already deleted, attempt to resync, and get stuck, unable to complete or switch back to the global default policy.<br>

- sometimes the cluster refuses to accept any more policy commands. Have to fully shut down and restart the cluster to clear this condition.<br></div><div>- sometimes policies applied to empty and inactive queues don&#39;t get correctly applied, and the queue hangs on &quot;resyncing / 100%&quot;. this makes no sense, given the queue is empty, and requires a full cluster restart to clear.<br>

</div><div>- would like to see a tool to redistribute queues amongst available cluster machines according to HA policy. Ideally something that happens automatically on queue creation, cluster membership and policy changes, but would take something manual I could run out of cron.<br>

</div>-  I&#39;ve managed to get the cluster into an inconsistent state a /lot/ 
using the HA features, so it feels like they need more 
automated stress testing and bulletproofing.<br><br>Persistent message storage:<br></div><br>- it appears as if messages are put into very small batch files on the filesystem (1-20 MB)<br>
</div>- this causes the filesystem to thrash if your IO isn&#39;t good at random IO (SATA disks) and you have lots of persistent messages (&gt;200k messages 500kB-1MB in size) that don&#39;t fit in RAM.<br>- this caused CentOS 6 kernel to kill erlang after stalling the XFS filesystem for &gt; 120s.<br>


</div><div>- if a node crashes, Rabbit seems to rescan the entire on-disk datastore before continuing, instead of using some sort of checkpointing or journaling system to quickly recover from a crash.<br></div><div>- all of above should be solvable by using an existing append-only datastore like eLevelDB or Bitcask.<br>


</div><div>- we solved for now by using SSDs, but this bumps up the cost of each RMQ node, and doesn&#39;t solve the node crash recovery problem, just speeds up the process somewhat.<br><br></div><div>Web API:<br></div><div>

- API seems to block when cluster is busy, even for informational GETs, so you can&#39;t determine what&#39;s going on with the cluster.<br></div><div>- Some API operations seem to block until they complete (like putting a new policy), while others return immediately even though they&#39;re definitely not completed yet (like deleting a policy). It&#39;s not documented which have which behaviour, or why they don&#39;t just all block until op is completed.<br>

</div><div><br></div><div>Hopefully you guys can educate me on what I&#39;m doing wrong in some of these scenarios, or how to mitigate some of these issues. Any issue that requires taking down and restarting the cluster to fix is especially troubling.<br>


<br>Thanks,<br></div><div>Graeme<br><br>
</div></div>
<br>_______________________________________________<br>
rabbitmq-discuss mailing list<br>
<a href="mailto:rabbitmq-discuss@lists.rabbitmq.com">rabbitmq-discuss@lists.rabbitmq.com</a><br>
<a href="https://lists.rabbitmq.com/cgi-bin/mailman/listinfo/rabbitmq-discuss" target="_blank">https://lists.rabbitmq.com/cgi-bin/mailman/listinfo/rabbitmq-discuss</a><br>
<br></blockquote></div>