JAK MONITORUJEMY SERWERY?

Zbieranie metryk

Aby monitoring powierzonych nam serwerów był skuteczny, musimy nieustannie zbierać informacje dotyczące ich stanu. Informacje te, zwane metrykami zapisujemy potem do bazy danych. Metryki mogą być różne – niektóre dotyczą sprzętu (temperatura, stan dysków twardych i sieci), inne systemu operacyjnego (obciążenie procesora, zajętość pamięci, zużycie buforów), a jeszcze inne zainstalowanych na serwerze aplikacji.

Analiza danych

Większość zebranych metryk porównujemy dwukrotnie, by zweryfikować, czy nie występują żadne problemy. Najpierw sprawdzamy czy wartość nie przekracza ustalonego progu – np. czy wartość zużycia miejsca na dysku twardym nie przekracza 90%, a potem czy nie nastąpiły żadne anomalie – np. niecodziennie wysoki wzrost zużycia miejsca na dysku w porównaniu z innymi dniami.

Alarmowanie

Jeśli któraś z metryk przekroczy ustalony próg, system wywoła alarm, który utworzy nowe zgłoszenie techniczne i w zależności od priorytetu powiadomi dyżurnego administratora mailem, SMSem, lub telefonicznie. W przypadku, gdy nie podejmie on działań, alarm zostanie eskalowany do kolejnych administratorów.

Przykładowe rzeczy, które możemy monitorować

Zasoby sprzętowe

  • stan dysków S.M.A.R.T.
  • zajętość miejsca na dyskach
  • temperatura procesora
  • obciążenie interfejsów sieciowych
  • poprawność działania macierzy RAID
  • błędy pamięci RAM

System operacyjny

  • czas działania serwera
  • zmiany w plikach systemowych
  • zmiana liczby użytkowników
  • liczba zalogowanych użytkowników
  • liczba procesów
  • dostępne aktualizacje

Wydajność

  • Oczekiwanie na dyski (iowait)
  • Ilość otwartych plików
  • Zużycie CPU przez poszczególne procesy
  • Ilość uruchomionych procesów
  • Zużycie pamięci i swap

Kopie zapasowe

  • Status wykonania backupu
  • Poprawność wykonania backupu
  • Czas wykonywania kopii
  • Poprawność zapisania kopii w chmurze

Strony WWW

  • Dostępność strony z 11 miejsc
  • Czas odpowiedzi serwera
  • Czas ładowania strony
  • Ważność certyfikatu SSL
  • Uptime w skali miesiąca

Bazy Danych

  • Status replikacji
  • Wykorzystanie pamięci
  • Problemy wydajnościowe
  • Wolne zapytania
  • Ilość połączeń

Napisz do nas