System tworzenia kopii bezpieczeństwa jest trudnym elementem w infrastrukturze teleinformatycznej. Ze swojej definicji jest on systemem nadmiarowym, nie związanym ściśle z głównymi aplikacjami przedsiębiorstwa. W praktyce jednak okazuje się, że przestój tego systemu co prawda nie przynosi strat finansowych, jednak powoduje wiele kłopotów i zamieszania. Dodatkowo system backupu jest aplikacją osadzoną na serwerze, która do kontroli pracy wykorzystuje osobne narzędzia w formie okien aplikacji zarządzania. Pracę tego systemu nadzoruje odpowiedni operator, co zawsze związane jest z konkretną potrzebą uruchomienia narzędzia zarządzania aplikacją backupów, na co nie zawsze operator ma czas. Z uwagi na złożoną architekturę aplikacji oraz jej wielu producentów dostarczających odpowiednie narzędzia system backupu często jest pomijamy w zagadnieniach monitorowania infrastruktury teleinformatycznej. Aplikacje czasami umożliwiają odczyt danych poprzez snmp, ale opcja ta często jest oddzielnie licencjonowana i niedostępna w naszym środowisku pracy.
W oparciu o elastyczny system monitoringu op5 Monitor oraz Nagios proponujemy uruchomienie monitoringu systemu Symantec Netbackup. Kontrola tej aplikacji obejmuje kilka poniżej opisanych obszarów. Metody są niezależne od wykorzystywanego systemu operacyjnego oraz dotyczą głównej konsoli serwera Netbackup.
Ogólny status aplikacji
Działanie aplikacji związane jest z poprawną pracą zestawu procesów.
Występowanie minimalnej liczby procesów ujęte jest w monitoringu.
Status napędów taśmowych
Na poprawny proces tworzenia kopii bezpieczeństwa składa się również dostępność biblioteki taśmowej. Częstym problemem są zawieszenia urządzenia taśmowego i jego przejścia w status „DOWN”. Jednym kliknięciem operator może zmienić status urządzenia na aktywny, jednak do czasu aż tego nie wykona zadania nie będą kończyły się poprawnie.
W aplikacji op5 Monitor udostępniamy monitoring napędów taśmowych:
Zadania w kolejce
Operatorzy systemu dobrze znają kolejkę zadań widoczną na konsoli zarządzania aplikacji. Odnotowany jest tam ślad pracy każdej polityki backupu która próbowała wykonać swoje zadanie. Niezależnie od tego, że zadanie zakończyło się powodzeniem czy nie informacja o nim pozostaje do wglądu.
W op5 Monitor udostępniamy metodę kontroli aktualnej kolejki zadań systemu backupu:
Pod uwagę brana jest cała kolejka zadań, dokładnie ta, którą operator widzi w aplikacji. W przypadku wychwycenia polityk zakończonych błędami zwracany jest odpowiedni status. Umożliwiamy indywidualny dobór progów do alarmowania lub też wysyłania powiadomień sms.
Kontrola ostatnich zadań
Z doświadczenia wiemy, że najistotniejsze są zadania najświeższe. Z tego powodu proponujemy wprowadzenie metody kontrolującej statusy zadań które zakończyły się w ciągu ostatnich np. 24 godzin. Jest to zbliżona metoda do kontroli całej kolejki zadań.
Zadania oczekujące
Podstawowym zadaniem pracy systemu backupu jest realizacja polityk backupowych. Wszelkie problemy w aplikacji skutkują tym, że polityki nie są wykonywane i w zależności od ustawień okna czasowego, oczekują na realizację. W miarę upływu czasu, zadań oczekujących w kolejce jest coraz więcej.
W op5 Monitor umożliwiamy sprawdzenie liczby zadań oczekujących na wykonanie. W przypadku zwiększenia ich liczby zmieniamy status metody sprawdzającej na ostrzeżenie oraz błąd krytyczny.
Śledzenie konkretnej polityki
W ramach monitoringu systemu Symantec Netbackup proponujemy kontrolę wykonania konkretnych polityk. Tę metodę należy stosować z co najmniej dwóch powodów:
-
umożliwiamy śledzenie konkretnej polityki, która z jakiś względów jest szczególnie istotna
-
część backupów realizowanych jest poprzez agentów backupu, jak np. cykliczny backup bazy danych ( RMAN, przyrostowy backup archivelog ). Minusem tego podejścia jest brak informacji na konsoli głównej w przypadku braku łączności z agentem ( lub jego innego błędu ). Innymi słowy, często konsola nie pokaże nam błędów pochodzących z agenta, jeżeli ten nie nawiązał połączenia w wyniku innych błędów.
Koncepcja monitoringu jest następująca. Znamy nazwę polityki i wiemy w jakim okresie czasu powinna się ona automatycznie uruchamiać w wyniku poprawnej pracy agenta. Dla przykładu będzie to polityka Oracle uruchamiana co 4 godziny. Monitoring przegląda historię ostatnich zadań z ostatnich 4 godzin + 5 minut, wyszukuje interesującą nas politykę i sprawdza jej status. W przypadku błędnego statusu lub braku wpisu o polityce zwracany jest błąd.
Dalszy rozwój monitoringu
op5 Monitor to system otwarty. Możliwości monitoringu ograniczone są pomysłowością operatorów, ich wiedzą i czasem lub budżetem przeznaczonym na wdrożenie funkcjonalności. Sama aplikacja pracuje w ramach skryptów i dostępnych narzędzi co oznacza, że monitoring możemy dowolnie rozszerzać i dopasowywać do własnych potrzeb.