Najlepsze praktyki dotyczące oprogramowania układowego i harmonogramy aktualizacji

12

Firmware nie zwraca uwagi na aktualizacje. Co z oczu to z serca.

Wiele urządzeń: kontrolery RAID, karty sieciowe, mikroukłady, a nawet dyski twarde, zyskuje na aktualizacji. Lepsze funkcje, zabezpieczenia / poprawki błędów itp.

Większość SA mówi: „Ilekroć się zepsuje, zaktualizuj oprogramowanie układowe”. Ale może to prowadzić do trudności na drodze; Kilka razy, kontaktując się z firmą Dell w sprawie uszkodzenia dysku twardego, zostałem zapytany, czy moje oprogramowanie układowe dysku twardego jest aktualne. Wszystkie moje serwery używają pewnego rodzaju konfiguracji RAID. Jeśli mam już awarię pojedynczego dysku, czy powinienem nawet rozważyć aktualizację oprogramowania układowego na pozostałych dyskach lub kontrolerze RAID? Powiedziałbym „nie”. Ale Dell wydaje się mieć inne zdanie.

  • Jaki jest realistyczny harmonogram aktualizacji oprogramowania systemowego?
  • Czy masz jakieś najlepsze praktyki, którymi możesz się podzielić?

(Wiem, że Dell ma ładne narzędzie o nazwie Server Update Utility , które sprawdza wszystkie nowe oprogramowanie układowe na dowolnym serwerze Dell).

Joseph Kern
źródło

Odpowiedzi:

10

Aktualizuję oprogramowanie wewnętrzne w dwóch kluczowych przypadkach.

  1. Podczas wystawiania serwera.
    • Kiedy tylko dostanę serwer, sprawdzę na stronie internetowej HP, czy nie ma daty ich najnowszej „płyty CD z aktualizacją oprogramowania układowego”. Jeśli jest wystarczająco nowy, uruchomię go na serwerze przed uruchomieniem go do produkcji.
    • Kiedy zmieniam przeznaczenie serwera. Zazwyczaj ten serwer ma 2-5 lat i prawdopodobnie nie miał aktualizacji oprogramowania układowego przez cały ten czas. Ponieważ i tak go formatuję, zaktualizuję wszystkie oprogramowanie układowe na serwerze.
  2. W przypadku zidentyfikowania dostawcy należy to zrobić.
    • Czasami występują poważne problemy ze stabilnością, takie jak niemożność odbudowania macierzy RAID5 po niewłaściwym typie awarii lub poważny błąd wydajności w silniku odciążania TCP na karcie sieciowej.
    • Czasami dzwoniąc do pomocy technicznej, pracownik pomocy technicznej poprosi o aktualizację oprogramowania układowego. Zrobię to wtedy.

Istnieje trzecia instancja, której nie wymieniłem powyżej, ponieważ tak się jeszcze nie stało:

  • Podczas umieszczania znacznie nowszego komponentu na starszym serwerze. Czasami system BIOS wymaga aktualizacji, aby go obsłużyć.
sysadmin1138
źródło
Myślę, że to zapewnia doskonałą równowagę.
Joseph Kern
5

Używamy HP SIM (System Insight Manager) do wdrażania oprogramowania układowego, robimy to według platformy - najpierw test, potem programowanie, następnie integracja, następnie referencje, a potem produkcja - zwykle około tygodnia na platformę, więc mamy 5/6 tygodniowe wydanie do okna produkcyjnego. Wydaje się, że działa, ale jedna rzecz, której NIGDY nie robimy, to wdrażanie oprogramowania układowego w tym samym czasie, co inne aktualizacje, takie jak sterowniki / kod itp. - oszczędza dużo wskazywania palcem.

Siekacz 3
źródło
+1, wskazanie palcem, zdarza się zbyt często ... wydaje się, że w każdy wtorek ...
Joseph Kern
4

Mógłbym tu iść przeciwko ziarnu, ale jeśli nie jest zepsute, nie naprawiaj go. Jeśli nie jest to kwestia bezpieczeństwa, zostawiam to w spokoju.

Z tego powodu nigdy nie miałem odmowy usługi firmy Dell.

Być może możesz zaplanować narzędzie raz w miesiącu, a następnie zaktualizować je przy użyciu innych restartów?

MathewC
źródło
+1 za mówienie prawdy. JEŚLI nie ma dobrego powodu do aktualizacji (na przykład, że sprzedawca nie obsługuje już twojego zestawu, chyba że zaktualizujesz BIOS / oprogramowanie układowe), to dlaczego to robisz?
RainyRat
Nie współpracuję z pomocą techniczną firmy Dell, ale nadal mam problem, który nie będzie obsługiwany przez firmę Intel, dopóki nie zaktualizuję systemu BIOS - tylko, że nie mogę tego zrobić, a czasem zastanawiam się, czy to dlatego, że jest to jedyny dostępny aktualizacja jest zbyt wiele wersji przed tym, co działa mój serwer.
Ben Dunlap,
1
Zasadniczo zgadzam się z tobą, ale mamy niektóre serwery, które są teraz znacznie szybsze i bardziej stabilne niż przy zakupie, wyłącznie z powodu ulepszeń oprogramowania układowego.
Chopper3
Zgoda. Myślę, że w tym przypadku problemy z wydajnością można uznać za „zepsute”.
MathewC
Dla przypomnienia, ostatnio faktycznie odmówiłem Dellowi wymiany dysku twardego na serwerze PowerEdge, dopóki nie zaktualizowałem oprogramowania kontrolera RAID do najnowszej wersji.
Ryan Bolger,
4

Aktualizacje oprogramowania układowego należy traktować tak samo, jak poprawek , chociaż zazwyczaj są one trudniejsze do wdrożenia, więc warto sprawdzić informacje o wersji, aby pomóc w podjęciu decyzji, czy jest to warte wysiłku (ale z drugiej strony możesz to zrobić również w przypadku poprawek ). Aktualizacje oprogramowania układowego mogą równie dobrze zawierać nowy, nieprzyjemny błąd, jak je naprawić.

Aktualizację oprogramowania układowego należy wykonać podczas uruchamiania (lub ponownego uruchamiania sprzętu), ponieważ jest to łatwy czas.

Wdrożenie powinno mniej więcej podążać za tym w następujący sposób:

  1. Test na maszynach laboratoryjnych
  2. Wdróż w nieistotnych systemach
  3. Czekać
  4. Wdróż w ważnych / produkcyjnych systemach

Z drugiej strony niektóre rzeczy nie mogą tego podążać. W szczególności bardzo ważne jest bardzo szybkie wypychanie łat Microsoft na komputery z systemem Windows, a testowanie jest trudne bez szybkich zasobów.

Toto
źródło
2

Zazwyczaj aktualizuję oprogramowanie podczas uruchamiania nowego sprzętu infrastruktury. Stacje robocze i drukarki są aktualizowane tylko wtedy, gdy występuje określony problem, taki jak wymagana naprawa błędu lub problem bezpieczeństwa. Jest to mniej ważne w przypadku serwerów, ponieważ w przeważającej części kod oprogramowania układowego albo nie wykonuje się poza procesem rozruchu, albo jest tak prosty, że nie można się nie udać.

Miałem złe doświadczenia z aktualizacją oprogramowania RAID na serwerach, ponieważ wielu producentów nie gwarantuje, że obecna konfiguracja RAID będzie opłacalna, jeśli zmieni się wersja oprogramowania układowego, tak samo z poszczególnymi dyskami w macierzy.

Moją tendencją byłoby w większości przypadków stosowanie zasady „jeśli nie jest zepsute, nie naprawiaj”. Warto sprawdzić, czy możliwe jest odzyskanie po złym uaktualnieniu oprogramowania firemware (np. Nadmiarowa pamięć ROM w serwerach HP, czy posiadasz flasher EEPROM i chcesz użyć go jako wymiennego układu).

Richard Slater
źródło
Jak często sprawdzasz „problemy z bezpieczeństwem” na różnych oprogramowaniach?
Joseph Kern
Praktycznie cały nasz zestaw to HP, rejestrując produkt, zakładam ogólne konto, aby otrzymywać powiadomienia o problemach z oprogramowaniem, sterownikami i bezpieczeństwem, jeśli odejdę, przekieruję to konto do mojego następcy.
Richard Slater,
2

Nie mogę mówić o Dellu, ale wiele lat temu ludzie z grupy pamięci IBM powiedzieli mi, że pierwsze poziomy ich oprogramowania układowego RAID NIGDY nie są najlepsze. Najpierw strzelają w celu uzyskania stabilności, a następnie zwiększają wydajność dzięki przyszłym poziomom obrotów. Niestety, niewielu z nas pomyślałoby (a może nawet może mieć moksie), aby wrócić później i zepsuć oprogramowanie układowe RAID zdrowego systemu, chyba że wystąpią problemy. Tak więc naszą strategią było uaktualnianie poziomów oprogramowania układowego RAID za każdym razem, gdy konfigurujemy nowy serwer, zakładając, że adapter RAID nie jest nowym modelem marki. W ten sposób uzyskujemy przynajmniej najlepszy dostępny poziom wydajności w danym momencie. Jeśli jest to adapter nowego trybu, staramy się zanotować w pamięci za kilka miesięcy i sprawdzić dostępność aktualizacji, ale nie jesteśmy religijni.

Na płytach głównych NIE ZABIERZAMY ich, dopóki nie poinformuje nas wsparcie techniczne dostawcy. Nasze doświadczenie na przestrzeni lat było takie, że jeśli nie ma konkretnego problemu, który wymaga naprawy, ryzyko znacznie przewyższa trudne do zmierzenia korzyści.

// spk

Scott Kantner
źródło
1

Z powodzeniem korzystałem z SUU i podobnych produktów HP i IBM. Jedynymi problemami, jakie kiedykolwiek napotkałem, były przypadki, gdy sterownik sprzedawcy został użyty do zastąpienia sterownika Dell, bez technicznych powodów, co spowodowało, że uaktualnienie SUU nie powiodło się uaktualnieniu OM na serwerze Dell. Co najmniej dwa razy w roku przeprowadziliśmy aktualizacje oprogramowania układowego i sterowników na kilkuset serwerach, aby wszystkie były aktualne. Nigdy nie mieliśmy problemów z oprogramowaniem układowym RAID.

Mitch
źródło
Powiedz mi więcej ...
Joseph Kern
Śledziliśmy wydania Dell, jak sądzę, co kwartał, aby zaplanować zmiany w celu zastosowania aktualizacji. Zastosowalibyśmy je na wszystkich komputerach Dell we wszystkich obsługiwanych przez nas klientach. Być może mieliśmy szczęście, ale mieliśmy bardzo mało problemów, myślę, że sprowadzało się to również do posiadania planu i aktualizacji. Kiedy przejęliśmy nowe serwery, jedną z pierwszych rzeczy, które zrobiliśmy, było doprowadzenie wszystkich towarów do obecnego poziomu.
Mitch,
1

Aktualizujemy oprogramowanie za każdym razem, gdy dostajemy, co niestety jest prawdopodobnie 3-4 razy w roku (główne okna konserwacji) w niektórych systemach.

Jason Tan
źródło
0

Jeśli przeczytasz napis towarzyszący aktualizacji oprogramowania układowego Dell, zobaczysz, że klasyfikuje aktualizację jako krytyczną, ważną lub cokolwiek innego i opisuje, co naprawia aktualizacja (nie zawsze tak jasno, jak byś sobie tego życzył!).

Uważam, że nie będę stosować aktualizacji oprogramowania układowego bez bardzo ważnego powodu. Jeśli jest to aktualizacja krytyczna i naprawi problem, z którym mam do czynienia, to tak, zastosuję ją, mimo że jest to stresująca sprawa.

Jak mówisz, pomoc techniczna firmy Dell zwykle nalega na zastosowanie odpowiednich aktualizacji, zanim będą one wspierać, i oczywiście w takim przypadku nie masz dużego wyboru. Możesz zrozumieć, że Dell nie chce marnować czasu inżyniera, mimo że nigdy nie wiedziałem, że oprogramowanie wewnętrzne jest przyczyną wezwania pomocy technicznej.

JR

John Rennie
źródło
0

Myślę, że to zależy od rodzaju środowiska, z którym masz do czynienia. Jeśli pracujesz w środowisku wymagającym wysokiej dostępności i nie możesz ponownie uruchomić serwerów, kiedy chcesz. Moim zdaniem najlepszą praktyką jest wdrożenie harmonogramu konserwacji. Wybierz przedział czasowy dla każdego systemu, powiadom użytkowników i wykonaj wszystkie niezbędne prace, w tym aktualizacje oprogramowania układowego w wyznaczonym przedziale czasowym. W ten sposób możesz mieć pewność, że wszystkie twoje systemy są aktualne i jednocześnie minimalizować wpływ na produkcję. Ponadto, jak zauważono wcześniej w komentarzach, konieczne jest sprawdzenie aktualizacji oprogramowania układowego podczas budowania nowego serwera.

użytkownik176320
źródło