Tutaj mamy kilka serwerów i prawie każdy z nich ma dedykowany UPS. Między nimi istnieją zależności, dlatego należy je włączać we właściwej kolejności. Ostatecznie mamy poważne problemy z zasilaniem, więc serwery są zamykane, a następnie ponownie uruchamiane w losowej kolejności po przywróceniu zasilania. Nie ma problemu, jeśli serwery zostały wyłączone podczas awarii zasilania, ważne jest, aby działały poprawnie bez interwencji człowieka po przywróceniu zasilania.
Nasze UPS są dość tanie, a jedynym parametrem konfiguracyjnym przydatnym dla mojego celu jest power the load xx seconds after power is restored
. Teoretycznie umieszczając odpowiednie opóźnienia na każdym UPS, mogę ustalić kolejność restartu serwera, ale nie wierzę, że UPS będzie zachowywał się zgodnie z oczekiwaniami.
Czy to właściwa droga?
Czy zasilacze UPS wysokiego poziomu dają inne opcje naprawy sekwencji restartu?
Ostatnia uwaga: moje Ups są w zakresie 1000 - 2200 VA
systemd
- możliwość zdefiniowania właściwych zależności w procesie uruchamiania. Poczekaj, aż usługa X będzie dostępna, zanim spróbujesz uruchomić usługę Y.systemd
instancję, a nie dla usług działających na zupełnie innych serwerach ...Odpowiedzi:
Standardowa odpowiedź brzmi „wcale”. Napraw oprogramowanie do obsługi restartów w losowej kolejności. Jeśli naprawdę potrzebujesz NIEKTÓRYCH serwerów do uruchomienia (np. Active Directory), umieść je na USV, które prawdopodobnie przetrwają DUŻO dłużej. Serwer o niskiej mocy atomowej jest wystarczający jako kontroler Active Directory i przetrwa dzień na małym USV.
Nie. Powiedziałbym, że ogólnie zakłada się, że programiści są wystarczająco kompetentni, aby właściwie obejść ten problem.
MOŻESZ zrobić:
Powiedziałbym, że ten typ konfiguracji jest znacznie bardziej powszechny. Nazwałbym każde oprogramowanie, które WYMAGA serwera uruchamiane w określonej kolejności (poza czystą infrastrukturą), jako zepsute i nieodpowiednie dla biznesu.
Tak jak należy pamiętać: nasza własna konfiguracja to tani USV o wartości 20 kva (niski koszt, ponieważ mamy jeden używany) dla serwerów, z podrzędnym USV 2000VA dla maszyny służącej jako „root” sieci (i maszyna kopii zapasowej). Slaved oznacza, że USV stoi za dużym - więc przełącza się na baterię tylko wtedy, gdy duży (który trwa od pół godziny do 8 godzin, w zależności od tego, ile naszej sieci komputerowej jest online) przechodzi do zamknięcia terminala.
źródło
Zarządzane jednostki dystrybucji zasilania (a nie UPS) często obsługują niestandardowe opóźnienia w włączaniu poszczególnych gniazd po wznowieniu zasilania.
Zazwyczaj ma to na celu zapobieganie wyzwalaniu wyłączników automatycznych, gdy szafka pełna systemów włącza się w tym samym czasie natychmiast po przywróceniu zasilania, ale może to również służyć do zachowania kolejności rozruchu zależności systemowych.
źródło
Miałem dokładnie ten problem. Jedyna różnica polega na tym, że zainwestowaliśmy w mocne zasilacze APC montowane w stelażu (na przykład APC SmartUPS 3000 ). Dzięki oprogramowaniu do wyłączania sieci APC PowerChute (oprogramowanie PowerChute Network Shutdown) mogę wyłączać i uruchamiać serwery w określonej kolejności. Inną przydatną funkcją oprogramowania było ustawianie wyłączania serwerów w ostatniej chwili, tj. Obliczanie ilości energii akumulatorów, jaką pozostały jednostki APC, i wyłączanie serwerów z wystarczającą ilością czasu, aby właściwie się zamknęły zamiast po prostu wyłączyć.
Oprogramowanie ... nie jest przyjazne dla użytkownika, ale nie jest trudne, jeśli poświęcisz trochę czasu, aby go zrozumieć. Jeśli chcesz zainwestować więcej w infrastrukturę, jest to zdecydowanie droga do przejścia.
źródło
Wygląda na to, że zasilacze UPS są tanie i nie można ich skonfigurować pod kątem określonego czasu oczekiwania na wyjście po przywróceniu zasilania (niektóre urządzenia z wyższej półki są). Aby uzyskać tę samą funkcjonalność, musisz wybrać konkretnego hosta, aby zawsze włączał się od razu (być może którykolwiek system może się uruchomić w dowolnym momencie) i pozostawić wszystkie pozostałe serwery w stanie wyłączonym (skonfigurowanym w BIOS, aby powrócić do zasilania wyłączony po zastosowaniu prądu przemiennego oraz w celu uhonorowania magicznego pakietu Wake On Lan, aby włączyć się, gdy otrzyma taką polecenie). Następnie na głównym hoście, który się uruchamia, uruchom skrypt / narzędzie do pomiaru czasu transmisji magicznego pakietu WOL do każdego hosta.
źródło