1) hohe Erreichbarkeit / niedrige Fehleranfälligkeit (RAS)
2) Capacity on Demand (turn on/off capacity)
3) bestehende Power 7+ / 8 Hardware kann verwendet werden
4) PowerVM Virtualisierung out of the box
Neben der bereits beschriebenen höheren Performance pro Core sprechen noch andere Aspekte für einen Einsatz der POWER Architektur im HANA Umfeld.
Durch verschiedene RAS (Reliability, Availability und Serviceability) Features steigt die uptime der Komponenten drastisch gegenüber Intel.
In dem hier (*) beschriebenen technischen Whitepapers (en) sind die verschiedenen Methoden zur Steigerung der Erreichbarkeit innerhalb der Power 7+/8 Architektur im Detail dargestellt.
Hier einige Key Facts der RAS Vorteile:
– Enterprise Memory mit Chipkill / Advanced ECC memory (**)
– Vermeidung von Soft Errors: eDRAM für L4 Cache
– Prozessor: L2 Cache Column Repair
– Active Memory Mirroring für den Hypervisor
– redundante Hardware (Stromversorgung, Lüfter, Service Prozessor, Clocking)
– ECC (= Error Correction Code)
(1) = Capability built in but not supported (3) = CoD supported on Enterprise Servers (not on 1 & 2 socket systems)
(2) = Chipkill on Systems with DRAM sparing (4) = Performance degradation and only x4 DRAM (Quelle: IBM)
ECC (= Error Correction Code) (Quelle: IBM)
Laut “ITIC 2014 – 2015 Global Server Hardware, Server OS Reliability Report” (**) ist die Server Hardware von IBM 6 Jahre in Folge der Hersteller mit den niedrigsten Ausfallzeiten.
Was nützt einem die günstigste und performateste Hardware, wenn sie anfällig ist und die SLA’s bzgl. Verfügbarkeit nicht eingehalten werden können?
58% der IBM POWER Server erzielten 99,999% Erreichbarkeit im Jahr, was 5,26 Minuten entspricht. Dies wären somit 5,26min ungeplanter Downtime pro Server im Jahr oder 44sec im Monat.
Interessant ist ebenso, dass die Downtime in der Range von 41min – 4h lediglich 5% betrug und über diesen Zeitraum nur 1%. Im Vergleich hierzu: DELL (24%) , HP (14%), Cisco (11%), Fujitsu PQ (15%)
99,999% = 5,26 Minuten
99,99% = 52,56 Minuten
99,9% = 8,76 Stunden
Capacity on Demand
CoD beschreibt das kostenpflichtige Freischalten von zusätzlichen Systemressourcen. Man beschafft sich also Hardware mit zum Beispiel voll ausgestatten Ressourcen (Hauptspeicher/CPU) welche man zum aktuellen Zeitpunkt noch nicht benötigt. Man aktiviert nur den Anteil, den man für die aktuelle Last der Systeme benötigt. Falls dies in einigen Monaten nicht mehr ausreicht, könnte man diese zeitweise oder dauerhaft hinzuschalten.
Hier gibt es die Unterteilung zwischen permantent und temporär:
1) Permantent ist, wie der Name sagt, die dauerhafte Freischaltung von bestimmten Ressourcen welche für die Maschine noch nicht aktiv freigeschalten worden sind.
2) Temporär unterteilt sich in elastic, utility und trial
a) elastic bedeutet eine Freischaltung von Prozessor & Memory auf tagesbasis
b) utility bedeutet die Freischaltung von Prozessorressourcen auf
minutenbasis um evtl. Peaks zu bestimmten Zeiten zu bewältigen
c) trial kann dazu verwendet werden um testweise Ressourcen zuzuordnen
Infos:
(*) RAS:
http://public.dhe.ibm.com/common/ssi/ecm/po/en/pow03133usen/POW03133USEN.PDF
(**) Chipkill oder Advanced ECC memory ist eine IBM xSeries Speicher
Subsytem Technologie die Speicher Ausfallsicherheit um einiges erhöht.
Ein
Test mit Standard ECC memory Modulen über 3 Jahre Workload ( BMRS
simulation 720 power-on hours) über 36 Monate mit 8x128MB DIMMs mit 4 x
64MB DRAMs ergab eine Verfügbarkeit von 91%.
Mit Chipkill Speicher wurde eine Verfügbarkeit von 99,94% erzielt.
IBM vs. Intel:
http://www.beatriceco.com/pdf/Power8_vs_Lintel_111214_cust.pptx
(***)IBM Reliability:
http://itic-corp.com/blog/2014/04/itic-2014-reliability-survey-ibm-servers-most-reliable-for-sixth-straight-year-cisco-ucs-comes-on-strong-hp-reliability-rebounds/
http://www.ibmsystemsmag.com/power/businessstrategy/competitiveadvantage/itic-reliability-survey/
http://www.lenovo.com/images/products/system-x/pdfs/analyst-reports/XSL03126USEN.PDF
Jens Gleichmann
Technical Lead Consultant
Q-Partners Consulting und Management GmbH (www.qpcm.de / jens.gleichmann(at)qpcm.de
Vorsicht: Es ist gefährlich mit diesen Verfügbarkeitsvergleichen zu agieren. Die Daten auf denen dieser Report ITIC) basiert sind aus dem März 2014.Es gibt inzwischen andere Systeme von einigen Herstellern, die von den RAS Eigenschaften in der gleichen Klasse spielen wie die genannten Power-Systeme.