JAK MONITORUJEMY SERWERY?
Zbieranie metryk
Aby monitoring powierzonych nam serwerów był skuteczny, musimy nieustannie zbierać informacje dotyczące ich stanu. Informacje te, zwane metrykami zapisujemy potem do bazy danych. Metryki mogą być różne – niektóre dotyczą sprzętu (temperatura, stan dysków twardych i sieci), inne systemu operacyjnego (obciążenie procesora, zajętość pamięci, zużycie buforów), a jeszcze inne zainstalowanych na serwerze aplikacji.
Analiza danych
Większość zebranych metryk porównujemy dwukrotnie, by zweryfikować, czy nie występują żadne problemy. Najpierw sprawdzamy czy wartość nie przekracza ustalonego progu – np. czy wartość zużycia miejsca na dysku twardym nie przekracza 90%, a potem czy nie nastąpiły żadne anomalie – np. niecodziennie wysoki wzrost zużycia miejsca na dysku w porównaniu z innymipornxxxmobile dniami.
Alarmowanie
Jeśli któraś z metryk przekroczy ustalony próg, system wywoła alarm, który utworzy nowe zgłoszenie techniczne i w zależności od priorytetu powiadomi dyżurnego administratora mailem, SMSem, lub telefonicznie. W przypadku, gdy nie podejmie on działań, alarm zostanie eskalowany do kolejnych administratorów.
Przykładowe rzeczy, które możemy monitorować
Zasoby sprzętowe
- stan dysków S.M.A.R.T.
- zajętość miejsca na dyskach
- temperatura procesora
- obciążenie interfejsów sieciowych
- poprawność działania macierzy RAID
- błędy pamięci RAM
System operacyjny
- czas działania serwera
- zmiany w plikach systemowych
- zmiana liczby użytkowników
- liczba zalogowanych użytkowników
- liczba procesów
- dostępne aktualizacje
Wydajność
- Oczekiwanie na dyski (iowait)
- Ilość otwartych plików
- Zużycie CPU przez poszczególne procesy
- Ilość uruchomionych procesów
- Zużycie pamięci i swap
Kopie zapasowe
- Status wykonania backupu
- Poprawność wykonania backupu
- Czas wykonywania kopii
- Poprawność zapisania kopii w chmurze
Strony WWW
- Dostępność strony z 11 miejsc
- Czas odpowiedzi serwera
- Czas ładowania strony
- Ważność certyfikatu SSL
- Uptime w skali miesiąca
Bazy Danych
- Status replikacji
- Wykorzystanie pamięci
- Problemy wydajnościowe
- Wolne zapytania
- Ilość połączeń