Zum Inhalt springen
Logo CDS und DAViS Blog

Computational and Data Science Blog

Sind wir auf Kurs? Mo­ni­to­ring des Pi Welt­re­kord­ver­suchs

Wenn Berechnungen wie der Pi Weltrekordversuch der FH Graubünden oder einer Genomanalyse des SIAFs auf unseren Rechnern über Stunden bis Monate stabil laufen müssen, sind Daten über den aktuellen Stand der Hardware und Software für den Systemadministrator unerlässlich. Daher überwachen wir verschiedene Parameter unserer Server, um bei dringenden Problemen sofort eingreifen zu können und auch an Wochenenden wichtige Mitteilungen bei einem drohenden Ausfall nicht zu verpassen.

Hardware

Die wichtigsten Parameter bei der Pi-Berechnung sind Meldungen über die Wärmeentwicklung im Rechner und Meldungen zum Gesundheitszustand der Disks. Über Probleme in diesem Bereich möchten wir in Echtzeit informiert werden, da diese im schlechteren Fall einen akuten Hardwareausfall bedeuten oder im besseren Fall ein Problem mit einer Komponente melden, welches wir präventiv lösen möchten (zum Beispiel viele Fehler beim Lesen einer Harddisk). Wir setzten bei dieser Überwachung einerseits auf Skripte/Programme aus eigener Entwicklung, aber auch auf die Hardwaremonitoring-Möglichkeiten der Hersteller.

Im Falle der CPU-Temperatur ist dies bei der Pi-Berechnung ziemlich einfach, da diese Werte über das Sysfs von Ubuntu exportiert wird. Der Kern dieses Skripts liest den Inhalt der folgenden Dateien aus:

user@system:~$ cat /sys/bus/pci/drivers/k10temp/*/hwmon/hwmon*/temp1_input
52750
51125

In diesem konkreten Fall bedeutet dies, dass die CPU Sockets unseres Rechners zu einem bestimmten Zeitpunkt 52.75 ° respektive 51.13 ° Celsius warm waren. Diese Werte liegen ungefähr 28 °C unter dem Wert, den wir für eine Alarmierung (80 °C) definiert haben. Es musste folglich niemand eingreifen.

Für die Überwachung der HDD Temperaturen benutzen wir das Debian Paket hddtemp das wiederum die Daten von S.M.A.R.T. geliefert bekommt. Ein Aufruf mit diesem Tool sieht zum Beispiel so aus:

user@system:~$ sudo hddtemp /dev/sda
/dev/sda: TOSHIBA MG08SCA16TE: 35°C

Betriebssystem

Für das Monitoring des Betriebssystems greifen wir auf Standardlösungen zurück, wie sie in den meisten Unternehmen bekannt sind und eingesetzt werden. An der FH Graubünden werden von den zentralen Informatikdiensten die Server und Netzwerkkomponenten mit dem OpenSource Tool "Zabbix" aktiv überwacht. Damit können wir die grundlegenden Servereigenschaften, wie zum Beispiel Netzwerkerreichbarkeit, CPU, RAM und Diskauslastung im Blickfeld behalten und langfristige Trends bei deren Nutzung feststellen. Je nach überwachtem Service können neben den genannten Werten zusätzliche Parameter überwacht werden und beliebige Alarmierungspunkte festgelegt werden, um im Problemfall zeitnah via SMS oder E-Mail informiert zu werden.

Für die Pi-Berechnung und verschiedene andere Hosts speichern wir die Betriebssystem-Meldungen auf einen Logmonitoring-Server. Dazu setzten wir die OpenSource Software Graylog ein, mit der wir nach Problemen und Unregelmässigkeiten auch in sehr umfangreichen Logmeldungen suchen können. Mit wachsender Erfahrung kann der Administrator somit potenzielle Probleme schon allein daran erkennen, ob zu einem gegebenen Zeitpunkt eine Häufung von Logmeldungen vorliegt, wie zum Beispiel hier:

Graylog erlaubt uns natürlich auch das simple Suchen nach spezifischen Meldungen, wie zum Beispiel nach 'Error', 'Exception' oder 'Warning'. Das System kann aber auch für komplexe Abfragen mit logischen Operatoren (AND, OR, NOT etc.) genutzt werden.

Y-Cruncher (Pi Berechnung)

Da unsere Berechnung meist auf einer individuellen Programmentwicklung beruhen, muss die Überwachungstechnik auf die Eigenheiten dieses Programms Rücksicht nehmen. Daher setzen wir hier meistens auf selbst entwickelte Skripte wie zum Beispiel ein Bash- oder Python-Skript.

Bei der Pi-Berechnung ist für uns wichtig zu wissen, wann ein Checkpoint (optimaler Zeitpunkt für ein Backup) gekommen ist. Den einzigen Hinweis, den wir von Y-Cruncher dazu erhalten ist ein Eintrag in einem Logfile. In diesem spezifischen Fall überwachen wir mit dem Bash-Command "diff" die Änderungen an dem File und lassen uns mit einem E-Mail informieren, wann ein optimaler Backupzeitpunkt erreicht ist.

Angewandte Informatik studieren an der Fachhochschule Graubünden

Im Studium Computational and Data Science lernen Sie nicht nur komplexe, datengetriebene Anwendungen zu entwickeln, sie erwerben auch die Kompetenz diese zu betreiben. Beispielsweise in den Modulen «Einführung in Computer Science», «Cloud Computing», oder «Cryptographie und Security».

Thomas Keller ist Systemadministrator und Projektleiter am Zentrum DAViS der FH Graubünden

Martin Meier ist Projektleiter im Netzwerk und Serverbereich der FH Graubünden  

Prof. Corsin Capol ist Studienleiter des Bachelorstudiums Computational and Data Science

Anzahl Kommentare 0
Kommentare