Szukałem MTTF, MTBF, MTBR i MTBF dla naszych serwerów HP Gen9 działających w naszym środowisku produkcyjnym.
Korzeń mojego pytania powinien być zmartwiony czy nie.
Nie mogę uzyskać dobrych danych, ponieważ każdy serwer ma mieszankę sprzętu.
W mojej ostatniej firmie działało około 2000 serwerów Dell R210 R410 R710 Powiedziałbym, że średnio mieliśmy około 5 serwerów dziennie, które miały jakąś awarię. Tak więc około 0,25% serwera uległo awarii i potrzebowało wymiany części przed ponownym użyciem.
W mojej ostatniej firmie wszystko było skonfigurowane w parze HA, infrastruktura N + 2, więc nie miało to wpływu na produkcję. Udało nam się wymienić serwery i kontynuować pracę
W moim obecnym biurze obsługujemy 9 serwerów (HP Gen9, Hyper-V 56 VM), nie trzymamy pod ręką wielu części zamiennych, a centrum danych nie jest zarządzane, więc jeśli coś umrze, musimy jechać około 45 minut, aby wymienić byle co.
Mój CTO ani kierownik działu IT wydają się martwić, w zeszłym roku mieli około 2,5 dni przestoju, staram się klastra serwerów, ale nie widzą potrzeby.
Czy jest tu coś nie tak? Nie jestem pewien, co robić.
Wiem, że to nie moja odpowiedzialność, jeśli coś się stanie, to na CTO. To bardzo mała firma, tylko CTO, IT Manager, ja (deweloperzy) i 1 facet z działu pomocy technicznej.
Ponad całe doświadczenie w zarządzaniu środowiskiem produkcyjnym jest bardzo ograniczone, ponieważ sposób konfigurowania wielu rzeczy nazwałbym poziomem bardzo młodszym, ani mój dyrektor ds. Technologii, ani kierownik IT nie wiedzieli dużo o klastrowaniu, zanim tam dotarłem. Byli w trakcie projektu ustawiania DR bez HA, z którym wróżyłem, ale przegrałem.
źródło
Odpowiedzi:
Nie martw się o liczby MTTF, MTBF, MTBR i MTBF ... dlaczego miałyby się odnosić do specyfiki twojego środowiska?
Serwery mają wewnętrzne nadmiarowości i mogą być wyjątkowo stabilne w produkcji. Zależy to jednak od środowiska, macierzy / składu dysku, rodzajów dysków, ilości pamięci RAM, konfiguracji procesora, charakterystyki termicznej, mocy itp.
Zastosowanie jakiejś formy wysokiej dostępności może zmniejszyć potencjalne przestoje i zapewnia miejsce do zmiany obciążenia w przypadku awarii.
To pytanie dotyczy ryzyka finansowego i operacyjnego.
Być może przyrostowy koszt przejścia od samodzielnego do klastra jest na tyle wysoki, że nie ma sensu biznesowego? Być może 2,5 dni przestoju (~ 99,3% dostępności) jest wystarczająco dobry dla twojej operacji. Powinieneś skupić się na ochronie poza siedzibą i dobrych kopiach zapasowych. Wszystkich swoich systemach HP Gen9 są pod gwarancją producenta dzisiaj, więc nie ma dostępu do części. Jeśli masz macierz RAID, nadmiarowe zasilacze / wentylatory i stabilne zasilanie, objąłeś najbardziej krytyczne obszary.
Pomyśl o tym z perspektywy finansowej i nakreśl ryzyko, związane z tym koszty i postaraj się przekonać uzasadnieniem biznesowym tego, czego chcesz.
źródło