Biorąc pod uwagę fakt, że wiele systemów klasy serwerowej jest wyposażonych w pamięć ECC RAM , czy konieczne lub przydatne jest wypalenie modułów pamięci DIMM przed ich wdrożeniem?
Spotkałem środowisko, w którym cała pamięć RAM serwera jest poddawana długiemu procesowi wypalania / testowania stresu. Sporadycznie opóźnia to wdrażanie systemu i wpływa na czas realizacji sprzętu.
Sprzęt serwerowy to przede wszystkim Supermicro , więc pamięć RAM pochodzi od różnych dostawców; nie bezpośrednio od producenta, takiego jak Dell Poweredge lub HP ProLiant .
Czy to przydatne ćwiczenie? Z moich wcześniejszych doświadczeń korzystałem po prostu z pamięci RAM dostawcy. Czy testy pamięci POST nie powinny przechwytywać pamięci DOA? Odpowiedziałem na błędy ECC na długo przed faktycznym awarią modułu DIMM, ponieważ progi ECC były zwykle przyczyną uruchomienia gwarancji.
- Czy wypalasz swoją pamięć RAM?
- Jeśli tak, jakiej metody używasz do przeprowadzenia testów?
- Czy wykrył jakieś problemy przed wdrożeniem?
- Czy proces wypalania spowodował jakąkolwiek dodatkową stabilność platformy w porównaniu z niewykonaniem tego kroku?
- Co robisz, dodając pamięć RAM do istniejącego działającego serwera?
źródło
Nie.
Celem wypalania w sprzęcie jest podkreślenie go do tego stopnia, że katalizuje awarię elementu.
Robienie tego z mechanicznymi dyskami twardymi przyniesie pewne rezultaty, ale po prostu nie zrobi wiele dla pamięci RAM. Charakter tego komponentu jest taki, że czynniki środowiskowe i wiek są o wiele bardziej prawdopodobne jako przyczyna awarii niż kiedykolwiek odczyt i zapis do pamięci RAM (nawet przy maksymalnej przepustowości przez kilka godzin lub dni).
Zakładając, że pamięć RAM ma wystarczająco wysoką jakość, aby lut nie stopił się przy pierwszym uruchomieniu, proces wypalenia nie pomoże w znalezieniu wad.
źródło
Kupujemy ostrza i zazwyczaj kupujemy je w dość dużych blokach naraz, w związku z czym instalujemy je i instalujemy w ciągu DNI zanim nasze porty sieciowe będą gotowe / bezpieczne. Wykorzystujemy więc ten czas na używanie memtestu przez około 24 godziny, czasem dłużej, jeśli potrwa to przez weekend - po tym spryskujemy podstawowy ESXi, a IP jest gotowe do zastosowania profilu hosta po uruchomieniu sieci. Więc tak, testujemy to, bardziej z okazji niż z konieczności, ale wcześniej złapało kilka modułów DOA DIMM i nie robię tego fizycznie, więc nie zajmuje mi to żadnego wysiłku. Jestem za to.
źródło
Myślę, że to zależy dokładnie od tego, jakie są twoje procesy. ZAWSZE uruchamiam MemTest86 na pamięci, zanim włożę go do systemu (serwera lub innego). Po uruchomieniu systemu problemy z wadliwą pamięcią mogą być trudne do rozwiązania.
Co do faktycznie „testowania warunków skrajnych” pamięci; Nie wiem jeszcze, dlaczego byłoby to przydatne, chyba że testujesz w celu przetaktowania.
źródło
Nie wiem, ale widziałem ludzi, którzy to robią. Nigdy nie widziałem, żeby coś z tego zyskiwały, myślę, że może to być kac lub przesąd.
Osobiście jestem podobny do ciebie pod tym względem, że wskaźniki błędów ECC są dla mnie bardziej przydatne - zakładając, że RAM nie jest DOA, ale i tak byś to wiedział.
źródło
W przypadku pamięci RAM innej niż ECC uruchomienie 30 minut na memtest86 + jest przydatne, ponieważ zwykle nie ma niezawodnej metody wykrywania błędów bitów podczas działania systemu.
Niebieskie ekranowanie nie jest uważane za niezawodną metodę ...
I lekko niestabilna pamięć RAM często nie wyświetla się natychmiast, dopiero po tym, jak system zobaczył pełne obciążenie pamięci, a następnie tylko wtedy, gdy dane w tej pamięci RAM były kodem, który został wykorzystany i następnie rozbił się. Korupcja danych może pozostać niezauważona przez długi czas.
W przypadku RAM ECC nic nie zrobi sam kontroler pamięci, więc to naprawdę nie ma sensu. To tylko strata czasu.
Z mojego doświadczenia wynika, że ludzie, którzy nalegają na podpalenie, to zwykle starzy faceci, którzy zawsze robili to w ten sposób i nadal robią to z przyzwyczajenia, nie myśląc naprawdę.
Lub są młodymi chłopcami, postępując zgodnie z zaleconą procedurą napisaną przez tych starych facetów.
źródło
To zależy.
Jeśli wdrażasz 50 000 nowych pamięci RAM i wiesz, że ten konkretny sprzęt ma wskaźnik awarii 0,01% po działaniu krócej niż dzień, statystycznie rzecz biorąc, musi być kilka takich, które zawiodą pierwszego dnia. Wypalanie ma to uchwycić. W przypadku wdrożeń na taką skalę spodziewana jest awaria, a nie wyjątkowa sytuacja.
Jeśli jednak wdrażasz tylko kilkaset przedmiotów, statystyki są najprawdopodobniej po twojej stronie, ponieważ musisz mieć pecha, aby zdobyć nieudane części.
źródło