<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style>
</head>
<body class='hmmessage'>
Bela,<BR>&nbsp;<BR>&nbsp; Tried your new config. I had to leave FLUSH in for Infinispan 4.2.0. Also, it complained about the cap parameter on pbcast.STABLE, so I removed it. When I started everything up,&nbsp;it created 5 groups and did not appear to be merging. The merge was timing out (maybe because the FLUSH was taking too long). I&nbsp;increased some of the timeouts (listed below) and then it started up with three groups. I will test more tomorrow.<BR>&nbsp;<BR>PING timeout="10000"<BR>pbcast.GMS join_timeout="20000" merge_timeout="10000" <BR>&nbsp;<BR>&nbsp;<BR>
&gt; Date: Tue, 22 Mar 2011 08:44:32 +0100<BR>&gt; From: bban@redhat.com<BR>&gt; To: infinispan-dev@lists.jboss.org<BR>&gt; Subject: Re: [infinispan-dev] Infinispan Large Scale support<BR>&gt; <BR>&gt; I cross-posted this to the JGroups mailing lists [1]<BR>&gt; <BR>&gt; <BR>&gt; [1] https://sourceforge.net/mail/?group_id=6081<BR>&gt; <BR>&gt; <BR>&gt; On 3/22/11 2:05 AM, Dave wrote:<BR>&gt; &gt; I switched back to UDP today based on your feedback. Our config resembles<BR>&gt; &gt; the config below. Like I said we just increased sizes and timeouts. If you<BR>&gt; &gt; ask me why I tweaked a certain parameter my response would be that it seemed<BR>&gt; &gt; like a good idea based on the JGroups documentation. UDP seemed a little<BR>&gt; &gt; more problematic than TCP, not sure why though.<BR>&gt; &gt;<BR>&gt; &gt; &lt;config xmlns="urn:org:jgroups"<BR>&gt; &gt; xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"<BR>&gt; &gt; xsi:schemaLocation="urn:org:jgroups file:schema/JGroups-2.8.xsd"&gt;<BR>&gt; &gt; &lt;UDP<BR>&gt; &gt; mcast_addr="${jgroups.udp.mcast_addr:228.6.7.8}"<BR>&gt; &gt; mcast_port="${jgroups.udp.mcast_port:46655}"<BR>&gt; &gt; tos="8"<BR>&gt; &gt; ucast_recv_buf_size="20000000"<BR>&gt; &gt; ucast_send_buf_size="640000"<BR>&gt; &gt; mcast_recv_buf_size="25000000"<BR>&gt; &gt; mcast_send_buf_size="640000"<BR>&gt; &gt; loopback="true"<BR>&gt; &gt; discard_incompatible_packets="true"<BR>&gt; &gt; max_bundle_size="4000000"<BR>&gt; &gt; max_bundle_timeout="30"<BR>&gt; &gt; ip_ttl="${jgroups.udp.ip_ttl:2}"<BR>&gt; &gt; enable_bundling="true"<BR>&gt; &gt; enable_diagnostics="false"<BR>&gt; &gt;<BR>&gt; &gt; thread_naming_pattern="pl"<BR>&gt; &gt;<BR>&gt; &gt; thread_pool.enabled="true"<BR>&gt; &gt; thread_pool.min_threads="2"<BR>&gt; &gt; thread_pool.max_threads="30"<BR>&gt; &gt; thread_pool.keep_alive_time="5000"<BR>&gt; &gt; thread_pool.queue_enabled="true"<BR>&gt; &gt; thread_pool.queue_max_size="1000"<BR>&gt; &gt; thread_pool.rejection_policy="Discard"<BR>&gt; &gt;<BR>&gt; &gt; oob_thread_pool.enabled="true"<BR>&gt; &gt; oob_thread_pool.min_threads="2"<BR>&gt; &gt; oob_thread_pool.max_threads="30"<BR>&gt; &gt; oob_thread_pool.keep_alive_time="5000"<BR>&gt; &gt; oob_thread_pool.queue_enabled="true"<BR>&gt; &gt; oob_thread_pool.queue_max_size="1000"<BR>&gt; &gt; oob_thread_pool.rejection_policy="Discard"<BR>&gt; &gt; /&gt;<BR>&gt; &gt;<BR>&gt; &gt; &lt;PING timeout="360000" num_initial_members="400"<BR>&gt; &gt; break_on_coord_rsp="false"/&gt;<BR>&gt; &gt; &lt;MERGE2 max_interval="30000" min_interval="10000"/&gt;<BR>&gt; &gt; &lt;FD_SOCK/&gt;<BR>&gt; &gt; &lt;FD_ALL/&gt;<BR>&gt; &gt; &lt;BARRIER /&gt;<BR>&gt; &gt; &lt;pbcast.NAKACK use_stats_for_retransmission="false"<BR>&gt; &gt; exponential_backoff="0"<BR>&gt; &gt; use_mcast_xmit="true" gc_lag="0"<BR>&gt; &gt; retransmit_timeout="300,600,1200,2400,3600,4800"<BR>&gt; &gt; discard_delivered_msgs="true"/&gt;<BR>&gt; &gt; &lt;UNICAST timeout="300,600,1200,2400,3600,4800"/&gt;<BR>&gt; &gt; &lt;pbcast.STABLE stability_delay="1000" desired_avg_gossip="50000"<BR>&gt; &gt; max_bytes="1000000"/&gt;<BR>&gt; &gt; &lt;pbcast.GMS print_local_addr="false" join_timeout="60000"<BR>&gt; &gt; view_bundling="true" use_flush_if_present="false"/&gt;<BR>&gt; &gt; &lt;UFC max_credits="2000000" min_threshold="0.20"/&gt;<BR>&gt; &gt; &lt;MFC max_credits="2000000" min_threshold="0.20"/&gt;<BR>&gt; &gt; &lt;FRAG2 frag_size="2000000" /&gt;<BR>&gt; &gt; &lt;pbcast.STREAMING_STATE_TRANSFER/&gt;<BR>&gt; &gt; &lt;!--&lt;pbcast.STATE_TRANSFER/&gt; --&gt;<BR>&gt; &gt; &lt;pbcast.FLUSH timeout="0"/&gt;<BR>&gt; &gt; &lt;/config&gt;<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt; -----Original Message-----<BR>&gt; &gt; From: infinispan-dev-bounces@lists.jboss.org<BR>&gt; &gt; [mailto:infinispan-dev-bounces@lists.jboss.org] On Behalf Of Bela Ban<BR>&gt; &gt; Sent: Saturday, March 19, 2011 1:15 PM<BR>&gt; &gt; To: infinispan-dev@lists.jboss.org<BR>&gt; &gt; Subject: Re: [infinispan-dev] Infinispan Large Scale support<BR>&gt; &gt;<BR>&gt; &gt; Hard to believe that TCP would be better, as TCP creates a mesh of<BR>&gt; &gt; connections; for 400 nodes, with every node sending, you'll have roughly<BR>&gt; &gt; 400*400 connections !<BR>&gt; &gt;<BR>&gt; &gt; I always had a much better experience with UDP<BR>&gt; &gt;<BR>&gt; &gt; On 3/19/11 2:37 PM, david marion wrote:<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; Initially yes, but I think we are getting better stability using TCP. I<BR>&gt; &gt; switched it back to TCP yesterday. I can post specifics of what I did in the<BR>&gt; &gt; TCP configuration, but the short story is I increased a lot of the timeout<BR>&gt; &gt; values to get it to work.<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; Dave Marion<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;&gt; Date: Sat, 19 Mar 2011 10:50:54 +0100<BR>&gt; &gt;&gt;&gt; From: bban@redhat.com<BR>&gt; &gt;&gt;&gt; To: infinispan-dev@lists.jboss.org<BR>&gt; &gt;&gt;&gt; Subject: Re: [infinispan-dev] Infinispan Large Scale support<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; On 3/18/11 10:35 PM, Dave wrote:<BR>&gt; &gt;&gt;&gt;&gt; Won't be able to get CR4 uploaded, policy dictates that I wait until<BR>&gt; &gt; final<BR>&gt; &gt;&gt;&gt;&gt; release. However, I was able to get 431 nodes up and running as a<BR>&gt; &gt; replicated<BR>&gt; &gt;&gt;&gt;&gt; cluster and 115 nodes up as a distributed cluster. For the 430 node<BR>&gt; &gt; cache, I<BR>&gt; &gt;&gt;&gt;&gt; was able to get it started with no problems about 50% of the time. When<BR>&gt; &gt; they<BR>&gt; &gt;&gt;&gt;&gt; formed multiple clusters they merged together only some of the time. It<BR>&gt; &gt;&gt;&gt;&gt; really does appear to be a startup issue at this point. We have not<BR>&gt; &gt; pushed<BR>&gt; &gt;&gt;&gt;&gt; it hard enough yet to see what happens at this scale under load.<BR>&gt; &gt;&gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;&gt; Any idea when CR4 will be FINAL?<BR>&gt; &gt;&gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;&gt; Are there any tools to help diagnose problems / performance at this<BR>&gt; &gt; scale (I<BR>&gt; &gt;&gt;&gt;&gt; ended up writing my own monitor program)?<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; Yes, there's probe.sh at the JGroups level. I created a JIRA to provide<BR>&gt; &gt;&gt;&gt; a sample for large clusters. You said you based your config on udp.xml,<BR>&gt; &gt;&gt;&gt; correct ?<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; [1] https://issues.jboss.org/browse/JGRP-1307<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; --<BR>&gt; &gt;&gt;&gt; Bela Ban<BR>&gt; &gt;&gt;&gt; Lead JGroups / Clustering Team<BR>&gt; &gt;&gt;&gt; JBoss<BR>&gt; &gt;&gt;&gt; _______________________________________________<BR>&gt; &gt;&gt;&gt; infinispan-dev mailing list<BR>&gt; &gt;&gt;&gt; infinispan-dev@lists.jboss.org<BR>&gt; &gt;&gt;&gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>&gt; &gt;&gt; <BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; _______________________________________________<BR>&gt; &gt;&gt; infinispan-dev mailing list<BR>&gt; &gt;&gt; infinispan-dev@lists.jboss.org<BR>&gt; &gt;&gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>&gt; &gt;<BR>&gt; <BR>&gt; -- <BR>&gt; Bela Ban<BR>&gt; Lead JGroups / Clustering Team<BR>&gt; JBoss<BR>&gt; _______________________________________________<BR>&gt; infinispan-dev mailing list<BR>&gt; infinispan-dev@lists.jboss.org<BR>&gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>                                               </body>
</html>