Złe dyski w starożytnym serwerze

12

Mam serwer Netware 3.12 z ery 1998 r., Który obsługuje wszystko w naszym kampusie: księgę główną, zakupy, płace, informacje o studentach, stopnie, ty to nazwij. Serwer ma kontroler RAID Adaptec z dwoma woluminami:

  1. RAID 1, 2 dyski SCSI 17 GB, Seagate ST318417W
  2. RAID 5, 3 dyski SCSI 4 GB, 2 Seagate ST34573W i 1 ST34572W.

Obecnie jesteśmy na wczesnym etapie projektu wymiany tego systemu, ale nie tylko przeskakujesz do nowego takiego systemu, więc muszę utrzymać ten serwer do co najmniej listopada 2011 r.

W tym tygodniu nie mieliśmy awarii jednego, ale dwóch dysków twardych. Na szczęście pochodzą one z różnych woluminów i na razie możemy nadal działać, ale biorąc pod uwagę bliski charakter tych awarii, mam poważne wątpliwości, że będę w stanie uniknąć katastrofalnej awarii z tego serwera do celu listopadowego, jak to jest bez przywrócenie nadmiarowości macierzy RAID - zajmie tylko jedną awarię dysku w dowolnym miejscu i jestem całkowicie wkurzony.

Mamy szczęście, że mamy dokładnie dopasowane „części zamienne” dla obu dysków, ale części zamienne są w nieznanym stanie. Próbowałem zamienić tylko je, ale kontroler RAID nie jest wystarczająco inteligentny, aby sobie z tym poradzić i sprawia, że ​​nie można uruchomić systemu.

Jeśli chodzi o sam kontroler RAID, istnieje narzędzie, do którego mogę się dostać podczas testu POST za pomocą skrótu Ctrl-A, ale nie mogę wiele z tego zrobić. Aby faktycznie zarządzać woluminami, najpierw muszę uruchomić się na Netware. W tym momencie mogę użyć CI/O Array Management Software Version 2.0informacji o woluminie. Podejrzewam, że normalnym sposobem zarządzania rzeczami jest uruchomienie ze specjalnej dyskietki z oprogramowaniem kontrolera, ale ta dyskietka już dawno zniknęła.

Przeglądając opcje w oprogramowaniu RAID, myślę, że jedynym obsługiwanym sposobem na zastąpienie dysku w istniejącym woluminie RAID jest fizyczne dodanie dysku, uruchomienie i skonfigurowanie go jako „zapasowego” dla woluminu, wymuszenie użycia woluminu zapasowy, aby zastąpić istniejący dysk awaryjny (i w tym momencie tylko zgaduję), aby dysk zapasowy stał się zapasowy, naprawić wolumin, usunąć zapasowy dysk z woluminu, a następnie zamknąć i usunąć dysk. Następnie zacznij od nowa dla drugiego uszkodzonego dysku. Wszystko to sprowadza się do wielu przestojów, zakładając, że mogę nawet sprawić, by działało i że moje części zamienne są dobre.

Jeśli chodzi o znalezienie niezawodnych części zamiennych, nie mam pojęcia, gdzie nawet zacząć szukać nowego dysku SCSI 4 GB, a nawet jakiego dokładnie systemu SCSI szukam, ponieważ przeszedł kilka różnych iteracji w czasie.

Inną opcją jest migracja tego na maszynę wirtualną (hyper-v), ale wszystkie poprzednie próby, które podjęliśmy w tym obszarze, nie zaszły bardzo daleko. Kiedy ta maszyna została zainstalowana, właśnie kończyłem szkołę średnią, a więc wymaga niższej wiedzy o oprogramowaniu sieciowym i systemie dos, niż kiedykolwiek opracowałem, lub jeśli o tym zapomniałem (nie jestem też doktorem ne).

Częścią mojego problemu jest to, że jest to serwer o wysokim zużyciu, a zdejmowanie go przez kilka dni, aby dowiedzieć się, co się wydarzy, nie będzie latać bardzo dobrze.

Jeśli chodzi o pytanie, szukam czegoś, co może być pomocne w tej sytuacji: zalecenie dotyczące miejsca, w którym można znaleźć dobre części zamienne z tej epoki, osobiste doświadczenie w naprawianiu woluminów RAID za pomocą podobnego kontrolera lub budowaniu hyper-vmm z stary serwer netware, linia na dyskietce z lepszym oprogramowaniem dla kontrolera RAID, zalecenie dobrego konsultanta Novell w Nebrasce, który byłby w stanie naprawić problemy, zupełnie inna opcja, której jeszcze nie rozważałem itp.

Aktualizacja: w
przypadku kopii zapasowych mamy dobre (ostatnio zweryfikowane przez przywracanie) tylko kopie danych - nic w przypadku oprogramowania, które faktycznie działa.

Aktualizacja 2:
Tylko raport postępu, który aktualnie mam działającą instalację Netware 3.12 w VMWare Virtual Server 2.0, głównie dzięki przewodnikowi, który znalazłem tutaj:
http://cerbulescubogdan.blogspot.com/2010/11/novell-netware-312 -on-vmware.html

Kolejne kroki to przygotowanie pustych woluminów netware, aby pasowały do ​​dodatkowych woluminów na moim istniejącym serwerze, zrobienie zrzutu wszystkiego na dysku C: \ i woluminów netware na moim istniejącym serwerze i ustalenie na podstawie tych informacji, jakie moduły należy dodać do netware, instalowanie moich licencji (nadal mamy ten dysk, jeśli jest dobry) i przenoszenie danych.

Mam zgodę na wyłączenie serwera na tydzień po pierwszym roku (niestety nie wcześniej), więc oprócz tworzenia pustych woluminów, reszta pracy będzie musiała poczekać.

Ostatnia aktualizacja (5 stycznia 2011 r.):
W tym tygodniu udało mi się uzyskać części zamienne działające w obu macierzach RAID bez utraty danych. Oba są teraz wymienione przez sterownik jako „AWARIA TOLLERANTA” (tak!). Byłem także w stanie wykorzystać postępy od mojej ostatniej aktualizacji i mam teraz funkcjonalny „zapasowy” serwer w VMWare Server 2.0. Część zapasowa może działać i korzystać z naszego oprogramowania erp, ale nie mogę go uruchomić, ponieważ nie mogę (jeszcze) drukować z tego pudełka (i nie mam pojęcia, dlaczego). Mimo to ta maszyna wirtualna zrobi się szczypta, jeśli nie mam innego wyboru, a między nią a naprawionymi macierzami RAID czuję się dobrze, żyjąc w tej sytuacji, dopóki nie będę w stanie zablokować maszyny w listopadzie.

Epilog (16 stycznia 2012 r.):
Projekt zastąpienia tego serwera nowym systemem został zrealizowany zgodnie z planem. Hurra, aby nie więcej oprogramowania sieciowego! Cały grad Sql Server! Król nie żyje. Niech żyje król!

Nadal planujemy utrzymać stary serwer jeszcze przez jakiś czas, aż do zakończenia audytu po roku podatkowym w sierpniu. Ale jeśli do tego czasu dojdzie do niepowodzenia, nikt nie będzie narzekał za bardzo.

Joel Coel
źródło
1
Jakie jest pytanie?
andyhky,
Zobacz ostatni akapit
Joel Coel,
2
Podobnie jak inni, straciłem zainteresowanie na długo zanim dotarłem do paragrafu pytania. Możesz rozważyć przeformatowanie całości, aby postawić pytanie i wcześniej, lub skondensować je.
John Gardeniers,
2
Chcę spojrzeć na to z innej perspektywy (być może już wiesz): Twoja CAŁA operacja opiera się na jednej 12-letniej maszynie, której nie możesz wymienić przez cały rok. Masz problem.
Jeff Ferland
2
Dziękujemy za aktualizację twojego projektu. Cieszę się, że migracja przebiegła pomyślnie.
Rozgwiazda

Odpowiedzi:

12

Uzyskaj (i nadal otrzymuj, codziennie lub częściej) dobre kopie zapasowe udostępnionych danych plików teraz . Jeśli zgubisz maszynę, prawdopodobnie nie będziesz w stanie znaleźć niezbędnych dyskietek (tak), aby ją przywrócić. Pobierz kopię partycji DOS, z której Netware uruchamia się, jeśli to możliwe.

To brzmi jak karta RAID Adaptec AAA-131 (lub coś z tamtej epoki). Jeśli mam rację, nie znajdziesz znacznie lepszego oprogramowania do zarządzania, ponieważ żadne nie istnieje (patrz http://www.adaptec.com/en-us/downloads/novell_netware/novell_netware/productid=aaa-131&dn=aaa-131 .html dla ostatnich dostępnych wersji). Użyłem wielu z tych kart „w ciągu dnia” i działały dobrze.

Jeśli jest to AAA-131, należy zachować szczególną ostrożność, grając z jego konfiguracją . Nie ma sposobu skonfigurowania zestawu RAID bez czyszczenia dysków na tych kartach. Oznacza to na przykład, że jeśli zdejmiesz pudełko i podłączysz niektóre dyski testowe i, powiedzmy, wyczyścisz konfigurację i utworzysz na nich zestaw RAID, po ponownym podłączeniu dysków „produkcyjnych” nie będzie możliwości ich użycia bez formatowania ich przez kartę. Tak. To takie złe.

Novell Netware będzie działał w hiperwizorach VMware. Polecam zawarcie umowy z kimś, kto ma przyzwoite doświadczenie z Novell Netware (są tu ludzie - patrzę na ciebie, Sysadmin1138 - którzy go mają), aby pomóc ci przenieść zawartość serwera do środowiska wirtualnego, w którym przynajmniej możesz to kontynuować.

Jeśli komputery klienckie są nowoczesne i mają zainstalowanego klienta sieciowego Microsoft, migracja do komputera z systemem Windows Server może być szybka i łatwa. Podnieś maszynę z systemem Windows Server o tej samej nazwie co serwer Netware, ujawnij udostępnioną strukturę katalogów o tej samej konwencji nazewnictwa UNC co maszyna Netware, skopiuj wszystkie pliki i zduplikuj uprawnienia na maszynie docelowej (ręcznie). Może to nie być wcale takie trudne, a wcześniej można „przeprowadzić” migrację w laboratorium testowym i przetestować z nim niektórych klientów, aby zdecydować, co należy zmienić z perspektywy środowiska skryptowego / użytkownika.

Prawdopodobnie możesz kupić zapasowy sprzęt w serwisie eBay. Jednak wszystko, co kupisz tego rocznika, będzie miało problemy z niezawodnością.

Gdybym był tobą, zachęciłbym kogoś do współpracy z Windows Server, aby pomógł Ci przenieść migrację z tego pola TERAZ . Prawdopodobnie można zwrócić się do kierownictwa o wydanie pieniędzy, dzięki czemu można stracić całą zawartość pudełka Netware praktycznie w dowolnym momencie. Pudełko zastępcze nie potrzebuje ogromnej mocy (biorąc pod uwagę to, co zamieniasz), więc licencjonowanie oprogramowania i tworzenie kopii zapasowych byłyby Twoimi największymi kosztami. Problemy z migracją związane z klientem można zminimalizować, korzystając z usług konsultanta, który jest dobry w zakresie skryptów i może zaplanować szczegóły zmiany ustawień związanych z klientem poprzez skrypty logowania i uruchamiania.

Evan Anderson
źródło
Oprogramowanie do zarządzania kampusem, które uruchamiamy na tym komputerze, wymaga katalogu Novell do konfiguracji zabezpieczeń, w przeciwnym razie chciałbym tylko AD w mgnieniu oka. Będę pamiętać, że nie bawię się zbytnio kontrolerem RAID.
Joel Coel,
4
@Jel Coel: Yeeouch. To jest do bani. W takim razie zwirtualizuj go tak szybko, jak to możliwe. Ten stary kontroler RAID dostarczy BIOS Int 13, który pozwoli na poprawne działanie narzędzi do obrazowania dysków DOS (takich jak GHOST for DOS). Dostałbym obraz sektor po sektorze dla wszystkich partycji Netware, a następnie poprosiłbym kogoś o pomoc w migracji ich na dyski wirtualne dla wybranego przez ciebie hiperwizora.
Evan Anderson,
Pracuję teraz nad odpowiedzią.
sysadmin1138
10

Wiem, ponieważ to zrobiłem (Cześć Evan), że VMWare ma przyzwoitą obsługę NetWare. Nawet dla naprawdę starych rzeczy (tego, co prowadzisz). NetWare tego vintage NOOPs procesora, gdy jest bezczynny zamiast HALTing, więc każdy procesor podany w maszynie wirtualnej zostanie ustalony. Do tego służą Narzędzia VMWare, które sprawiają, że tego nie robi. VMWare istnieje już od lat 90. (a nawet ma stoisko w BrainShare od kilku lat) i musiał to zrobić, dlatego mają wsparcie. Wirtualizacja Microsoft jest na tyle nowa, że ​​nigdy nie musiała wirtualizować NetWare, więc tam nie działa.

Jeśli ten serwer jest tak krytyczny, jak mówisz, znalezienie niektórych licencji VMWare powinno być łatwą sprzedażą. Przynajmniej wiosna dla licencji VMWare Workstation, która przynajmniej przeniesie ten serwer do środowiska wirtualnego. VMWare Server jest darmowy (wierzę), jeśli naprawdę musisz. Po zakończeniu tego zadania możesz rozważyć przeniesienie go do czegoś takiego jak ESXi, dopóki nie będzie można go bardziej formalnie zastąpić.

Istnieją inne opcje, w zależności od umiejętności korzystania z Linuksa. Novell spędził sporo czasu na zdobywaniu Xen (nie KVM, Xen, chociaż oba używają qemu) do obsługi NetWare. Prawdopodobnie będzie działać z NW3.12, ale musisz upewnić się, że używasz trybu pełnej wirtualizacji , a nie parawirtualizacji.

Ten serwer jest na tyle nowy, że powinien w nim znajdować się napęd CD-ROM, który prawdopodobnie będzie twoją oszczędnością. Po wykonaniu kopii zapasowej uruchom ją na ISO-Linux, jeśli chcesz. Nie będzie w stanie uzyskać danych, ale powinien zobaczyć dysk twardy. W tym momencie wykonaj pełną ddkopię obu woluminów w innym miejscu w sieci. Te obrazy dysków mogą być używane bezpośrednio przez qemu jako dyski wirtualne.

Istnieją sposoby na konwersję obrazów generowanych w formacie dd na VMDK VMDK, ale sam ich nie użyłem. Google, są tam.

sysadmin1138
źródło
Niektóre stare karty Adaptec RAID nie są obsługiwane przez system Linux. OP może zostać zablokowany za pomocą narzędzia do tworzenia obrazów DOS (w celu skorzystania z Int13 BIOS karty). Dobre narzędzie dd-to-vmdk, którego użyłem, to: sourceforge.net/projects/raw2vmdk
Evan Anderson
Ma napęd CD, ale okazuje się, że napęd nie działał :(
Joel Coel
5

To nie jest naprawdę pomocne w kontekście twojego pytania (szczerze mówiąc, już masz części zamienne, a jedyną przydatną sugestią, jaką mam do pozyskiwania starych dysków, byłoby „ Podaj numery modeli dysków do Zakupów Google ”), ale zanim dotkniesz czegoś innego powinieneś DOKŁADNIE UPEWNIĆ SIĘ, ŻE MASZ DOBRE KOPIE ZAPASOWE I MOŻESZ Z powodzeniem PRZYWRÓCIĆ GO NOWYM URZĄDZENIU W STANOWI UŻYTKOWNIKA .

Jeśli ta maszyna jest tak krytyczna, jak brzmi z twojego opisu, powinien być teraz twoim zerowym priorytetem. Jeśli od dłuższego czasu nie wykonałeś pomyślnie testu przywracania na swoich kopiach zapasowych, powinieneś założyć, że są one bezwartościowe i musisz upewnić się, że możesz rzeczywiście się zregenerować, jeśli ta maszyna zaszkodzi ostatnia i umrze na tobie.
Jeśli inny dysk padnie na ciebie martwy i nie będziesz mieć żadnych przydatnych kopii zapasowych, to prawie gra. Natychmiast przejdziesz do nowego systemu, niezależnie od tego, czy jesteś gotowy, czy nie.

Tylko moje 3,50 USD.

voretaq7
źródło
Zgoda. Sprawdź swoją zdolność przywracania. # 1 Pierwsza rzecz. Bez możliwości przywrócenia możesz równie dobrze nie mieć kopii zapasowych. (Byłem tam, zrobiłem to. Jest do bani. Nie rób tego.)
minamhere
2

Inni już zajmowali się tworzeniem kopii zapasowych itp., Więc nie powtórzę tego. Istnieje kilka rzeczy, które możesz zrobić, aby zwiększyć swoje szanse na dalsze funkcjonowanie systemu.

Zacznij od zainwestowania w naprawdę dobrej jakości filtr liniowy i umieść go między UPS a serwerem. Te stare dyski będą już dość drażliwe w przypadku skoków, skoków, a nawet dość niewielkich wahań podaży.

Widzę od ciebie aktualizację, że już zainstalowałeś dyski zapasowe, ale to jest to, co zaleciłbym: przed wypróbowaniem zapasowych dysków na serwerze umieść je na innej maszynie i stresuj się nimi z oprogramowaniem do wypalania lub, jeśli nie można uzyskać ciągłych cykli testowych przy użyciu oprogramowania do regularnych testów dysku. Dbaj o to przez co najmniej kilka dni, zanim zadeklarujesz, że dyski są godne zaufania. Stare dyski, które były w magazynie, są zwykle zawodne i mogą ulec awarii po upadku.

John Gardeniers
źródło
1

Doskonałe sugestie powyżej. Spróbuj tego także - na zapasowym nowoczesnym sprzęcie spróbuj odzyskać cały system z ostatniej pełnej kopii zapasowej. Upewnij się, że maszyna zapasowa nie jest w sieci.

Co to, obawiam się, że możesz powiedzieć? Nie masz kopii zapasowych i / lub procedury przywracania? Teraz wiesz, nad czym pracujesz przez następny tydzień?

mfinni
źródło
1

Odpowiadając tylko na pytania podwójne / potrójne / poczwórne, zalecamy wykonywanie kopii zapasowej każdego dnia, dopóki nie znajdziesz rozwiązania. Jeśli nie możesz łatwo wymienić martwych dysków, jedynym rozwiązaniem jest migracja na nowe dyski. Niezależnie od tego, czy oznacza to zbudowanie nowego serwera, czy powolną migrację istniejącego serwera w celu użycia nowych dysków na istniejącym serwerze, jest to jedyna opcja.

W 7-letniej macierzy RAID 5 mieliśmy awarię 2 z 3 dysków twardych w ciągu jednej nocy. Nasze kopie zapasowe były rażąco nieaktualne. 8 dni i 17 000 USD później firma zajmująca się odzyskiwaniem danych była w stanie odzyskać cały nasz serwer Exchange, ale nikt nie był zadowolony. (Z wyjątkiem mnie, ponieważ miałem robić kopie zapasowe każdego dnia. Na sprzęt, o który prosiłem, ale nikt by mnie nie kupił, ale fakt ten został utracony na wszystkich innych ...)

Jedną z dobrych rzeczy, które z tego wynikają, było to, że klient natychmiast zatwierdził moją 6-miesięczną prośbę o zakup sprzętu zastępczego. Ale cholera, to było wyjątkowo stresujące 8 dni. Zrób sobie przysługę, zrób kopię zapasową już teraz i zacznij pracować nad planem awaryjnym „uruchom i uruchom na dowolnym sprzęcie, jaki znajdziesz w biurze”.

minamhere
źródło