Der Hammer in Java Performance: AzulWir waren auf einen Tipp von Trifork hin beim Vortrag "Breaking Scaling Barriers". Dort wurde zunächst motiviert, wo das Problem steckt: Wir werden bald CPUs mit 4 Cores haben. Wenn man dann einen kleinen Server nimmt, landet man bei 8-16 Cores. Nun gibt es Amdahl's Gesetz, das besagt, dass die Performance von der Menge des serialisierten Codes abhängt. Und zwar sehr stark, so dass wenige Prozent schon tödlich sein können. Also: Serialsierung sollte eliminiert werden.
So weit so gut. Was heißt das für Java? Nun ja, Serialisierung funktioniert mit dem synchronized Schlüsselwort. Dies ist aber zu konservativ. Wenn man bei einer Hashmap Einträge in unterschiedliche Bereiche einfügt, gibt es kein Problem. Die gibt es nur, wenn man versucht, denselben Eintrag zu modifizieren. Als Begriffe wurden Lock Contention (Anwendungen streiten sich um den Lock) und Data Contention (Anwendungen streiten sich tatsächlich um die Daten).
Wie geht man damit um? Datenbanken machen hier Optimistic Locking: Erstmal die Änderungen machen, schauen, ob es Probleme gab, und dann ggf. zurückrollen. Das könnte man bei synchronized ja auch machen. Man muss nur die Datenkollisionen und ggf. ein Rollback machen.
Das genau macht Azul. Dadurch wird synchronized parallel ausgeführt, wenn es keine Data Contention gibt. Dadurch skaliert das ganze beliebig. Allerdings muss man schauen, dass man Data Contention vermeidet. Allerdings wird das Programmiermodell auch viel einfacher. Man kann einfach eine Methode synchronized machen z.B. beim Double Checked Locking Szenario. Dadurch wird es wesentliche einfacher, den Code zu schreiben.
Wir sind danach zum Azul Stand gegangen. Das konkrete Produkt ist eine Art CPU Appliance, die man einfach in's Netz hängt. Dann installiert man ein anderes JDK und die Anwendungen laufen auf der Appliance. Unterstützt werden im Moment Linux und Solaris. Es kommen HP UX, AIX und zLinux. Auf dem Host Rechner tauscht man einfach das JDK aus. Neben dem synchronized Handling hat die JVM auch eine optimierten Garbage Collector, der praktisch verzögerungsfrei arbeitet (40 ms). Die Boxen kommen mit 96, 192 und 384 CPUs. Man kann einfach einen Cluster bauen und die Tasks für die JVM landen dann in dem Cluster. Eine CPU ist ungefähr halb so schnell wie ein P4 und 96 CPUs kosten ca. 100k$ (Daumenzahl!). Die Maschinen können sehr große Heaps verwalten. Die Box kann maximal 256GB aufnehmen. Das ist dann auch die maximale Heap Size und das ist schon recht beeindruckend. Support gibt's übrigens von IBM und damit weltweit und BEA wird es wohl auch demnächst unterstützen.
Interessant sind die Auswirkungen auf die IT Systeme: Man kann einen Cluster aus schnellen CPUs für Java aufbauen. Das ganze kann man zwischen verschiedenen Host Systemen verteilen, die auch unterschiedliche Betriebssysteme haben. Das ganze ist wie Networked Attached Storage, nur eben CPUs. Ansonsten ist das Ding einfach wahnsinnig schnell und cool!