<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style>
</head>
<body class='hmmessage'>
Bela,<BR>
&nbsp;<BR>
&nbsp; Yes, it is a replicated cache and I used your udp-largecluster.xml file and just modified it slightly.&nbsp;It does appear that the distributed cache is in a&nbsp;deadlock (or there is a race&nbsp;condition), the coordinator comes up, but the other caches do not, they sit there and wait.&nbsp;I was able to get&nbsp;a distributed cache up and running on 100+ nodes, now I cannot get 5 of them&nbsp;running.&nbsp;<BR>&nbsp;<BR>
&gt; Date: Tue, 5 Apr 2011 11:09:54 +0200<BR>&gt; From: bban@redhat.com<BR>&gt; To: infinispan-dev@lists.jboss.org<BR>&gt; Subject: Re: [infinispan-dev] Infinispan Large Scale support<BR>&gt; <BR>&gt; <BR>&gt; <BR>&gt; On 4/4/11 5:45 PM, david marion wrote:<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt; Good news! I was able to use the system property from ISPN-83 and remove the FLUSH from the jgroups config with 4.2.1.FINAL, and start-up times are much much better. We have a replicated cache on about 420+ nodes up in under 2 minutes.<BR>&gt; <BR>&gt; <BR>&gt; Great ! Just to confirm: this is 420+ Infinispan instances, with <BR>&gt; replication enabled, correct ?<BR>&gt; <BR>&gt; Did you use a specific JGroups config (e.g. udp-largecluster.xml) ?<BR>&gt; <BR>&gt; <BR>&gt; &gt; I am seeing an issue with the distributed cache though with as little as 5 nodes.<BR>&gt; &gt;<BR>&gt; &gt; In the coordinator log I see<BR>&gt; &gt;<BR>&gt; &gt; org.infinispan.distribution.DistributionmanagerImpl: Detected a view change. Member list changed.......<BR>&gt; &gt; org.infinispan.distribution.DistributionmanagerImpl: This is a JOIN event! Wait for notification from new joiner&lt;name&gt;<BR>&gt; &gt;<BR>&gt; &gt; In the log from the joining node I see:<BR>&gt; &gt;<BR>&gt; &gt; org.infinispan.distribution.JoinTask: Commencing rehash on node:&lt;name&gt;. Before start, distributionManager.joinComplete=false<BR>&gt; &gt; org.infinispan.distribution.JoinTask: Requesting old consistent hash from coordinator<BR>&gt; &gt;<BR>&gt; &gt; I jstack'd the joiner, the DefaultCacheManager.getCache() method is waiting on org.infinispan.distribution.DistributionManagerImpl.waitForJoinToComplete() and the Rehasher thread<BR>&gt; &gt; is waiting on:<BR>&gt; &gt;<BR>&gt; &gt; at org.infinispan.util.concurrent.ReclosableLatch.await(ReclosableLatch.java:75)<BR>&gt; &gt; at org.infinipsan.remoting.transport.jgroups.JGroupsDistSync.blockUntilNoJoinsInProgress(JGroupsDistSync.java:113)<BR>&gt; &gt;<BR>&gt; &gt; Any thoughts?<BR>&gt; <BR>&gt; <BR>&gt; I recently took a look at the distribution code, and this part is very <BR>&gt; brittle with respect to parallel startup and merging. Plus, I believe <BR>&gt; the (blocking) RPC to fetch the old CH from the coordinator might <BR>&gt; deadlock in certain cases...<BR>&gt; <BR>&gt; I've got a pull request for a push based rebalancing versus pull based <BR>&gt; rebalancing pending. It'll likely make it into 5.x, as a matter of fact <BR>&gt; I've got a chat about this this afternoon.<BR>&gt; <BR>&gt; <BR>&gt; <BR>&gt; <BR>&gt; &gt;&gt; Date: Wed, 23 Mar 2011 15:58:19 +0100<BR>&gt; &gt;&gt; From: bban@redhat.com<BR>&gt; &gt;&gt; To: infinispan-dev@lists.jboss.org<BR>&gt; &gt;&gt; Subject: Re: [infinispan-dev] Infinispan Large Scale support<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; On 3/23/11 2:39 PM, david marion wrote:<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; Bela,<BR>&gt; &gt;&gt;&gt;<BR>&gt; &gt;&gt;&gt; Is there a way to start up the JGroups stack on every node without using Infinispan?<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; You could use ViewDemo [1] or Draw. Or write your own small test<BR>&gt; &gt;&gt; program; if you take a look at ViewDemo's src, you'll see that it's onyl<BR>&gt; &gt;&gt; a page of code.<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;&gt; Is there some functional test that I can run or something? I know I can't remove the FLUSH from Infinispan until 5.0.0 and I don't know if I can upgrade the underlying<BR>&gt; &gt;&gt;&gt; JGroups jar.<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; I suggest test with the latest JGroups (2.12.0) and +FLUSH and -FLUSH.<BR>&gt; &gt;&gt; The +FLUSH config should be less painful now, with the introduction of<BR>&gt; &gt;&gt; view bundling: we need to run flush fewer times than before.<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; [1] http://community.jboss.org/wiki/TestingJBoss<BR>&gt; &gt;&gt;<BR>&gt; &gt;&gt; --<BR>&gt; &gt;&gt; Bela Ban<BR>&gt; &gt;&gt; Lead JGroups / Clustering Team<BR>&gt; &gt;&gt; JBoss<BR>&gt; &gt;&gt; _______________________________________________<BR>&gt; &gt;&gt; infinispan-dev mailing list<BR>&gt; &gt;&gt; infinispan-dev@lists.jboss.org<BR>&gt; &gt;&gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>&gt; &gt; <BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt; _______________________________________________<BR>&gt; &gt; infinispan-dev mailing list<BR>&gt; &gt; infinispan-dev@lists.jboss.org<BR>&gt; &gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>&gt; <BR>&gt; -- <BR>&gt; Bela Ban<BR>&gt; Lead JGroups / Clustering Team<BR>&gt; JBoss<BR>&gt; _______________________________________________<BR>&gt; infinispan-dev mailing list<BR>&gt; infinispan-dev@lists.jboss.org<BR>&gt; https://lists.jboss.org/mailman/listinfo/infinispan-dev<BR>                                               </body>
</html>