Community

OPM ist da - Performance Management .Next

Die Performance von Speichersystemen ist seit jeher eine eigene Domain. Viele von uns haben irgendwann den Umgang mit Performance im Compute-Bereich der IT halbwegs verstanden (und auch das ist ein beliebig komplexes Thema), Storage-Performance bleibt aber für viele ein Buch mit sieben Siegeln. Jede Woche erlebe ich es beispielsweise wieder, das mit der Metrik MB/s argumentiert wird, obwohl diese Metrik ausser im HPC Bereich selten die Richtige ist.

Nun muss ich zugeben das dies auch ein komplexes Thema ist und auch ich meine ersten zwei Jahre in der Industrie voll daneben lag und auch heute immer wieder mal was lerne. Eine lustige Anekdote aus dem Jahre 2000 ist, wie ein Kollege und ich bei einem Kunden einen Performance-Test durchführten und versucht haben, mit allen möglichen Tricks die Performance der Oracle Logwriters über 5MB/s zu bekommen. Wir waren uns ganz sicher das in der Umgebung des Kunden irgendetwas nicht stimmte, unsere DD Tests hatten immer viel bessere Resultate erbracht. Was wir damals noch nicht so recht verstanden hatten war der Zusammenhang von Single-Threaded und Latency ...

Wo will ich hin? Storage Performance ist ein komplexes Thema. Und es Bedarf einer Menge Wissen und Erfahrung um dieses Thema zu meistern. Auf der anderen Seite werden Storagesysteme immer komplexer und spätestens bei einem Scale-Out-System wie Clustered Data ONTAP verliert man leicht den Überblick.

NetApp hat erkannt, das klassische Performance Monitoring Tools, die hauptsächlich Metriken auf die eine oder andere Weise visualisieren, unzureichend sind. Wir entwickeln daher für Clustered Data ONTAP die nächste Generation von Performance Management Tool. Darf ich vorstellen:

OnCommand Performance Manager 1.0

OPM 1.0 ist die erste Version des neuen Performance Managers. Bei OPM dreht sich alles um das Erkennen von Performance Problemen. Dazu wertet OPM diverse Metriken (primär Latenzen) einzelner Subsysteme und Storageobjekte des Clusters aus und setzt sie in Zusammenhang. Das ermöglicht das Beantworten von Fragen wie:

  • Liegt das aktuelle Performanceproblem im Storagesystem oder ausserhalb?
  • Welche Resourcen (z.B. LUNs, Volumes) sind betroffen? OPM nennt diese Opfer (Victims).
  • Wer verursacht das Problem? OPM nennt diese Täter (Bully).
  • Ist der Täter eine externe (z.B. ein defektes Skript erzeugt auf einmal 10mal mehr Workload und zieht die Produktionsdatenbank runter) oder interne Workload (vielleicht sollte der vol move doch zu einer Off-Hour gestartet werden)?
  • Okay, das Problem liegt wirklich im System: Wie schaffe ich Abhilfe?

Das Ganze verpackt in eine moderne und gefällige UI. Beispiel:

Das Bild zeigt die Latenz einer LUN (blaue Linie). Der graue Korridor ist der Bereich in dem sich die Latenz in der Vergangenheit bewegt hat (OPM hat gelernt, was die normale Latenz der LUN ist). Sobald sich die Latenz aus dem Korridor bewegt, wird ein Event erzeugt (roter Punkt) und OPM verrät einem die Ursache. Hier sieht man, das OPM die Ursachen in Bereiche wie Network (ist der Link nach aussen saturiert), Policy Group Limit (Clustered ONTAP hat Quality of Service; bin ich in ein vom Administrator mit QoS gesetztes Limit gelaufen) oder Aggregate (wir ziehen mehr IO als die angeschlossenen Disks liefern können) einordnet. Wenn man tiefer ins Detail geht werden mehr Informationen und oft auch eine Tipp zur Abhilfe gegeben.

OPM 1.0 wird nicht die Antwort auf jedes Performanceproblem liefern. Wir haben eine umfangreiche Vision und Roadmap für seine Zukunft, heute geht es mit V1.0 los. Dennoch ist es ein extrem starker Auftakt für ein Tool, das kein cDOT Admin missen darf. OPM kann viel Zeit und Nerven sparen und wer wünscht sich nicht eine schnelle Antwort, wenn es mal wieder heisst "der Storage ist Schuld" (Hint: ist er meist nicht).

Und das Beste kommt zum Schluss: OPM ist Free. Free wie in "kostenlos". Sollten Sie also eine Clustered Data ONTAP System betreiben, geschwind http://support.netapp.com/NOW/download/software/oncommand_pm/1.0RC1/ ansurfen und loslegen!

Und sicher lohnt es sich auch in der OnCommand Community vorbeizusehen.