Tryb lustrzany RAM: czy warto?

18

Niezupełnie zaznajomiony z „trybem lustrzanego kanału” Intela dla konfiguracji serwera kasetowego (typowa, średnio obciążona baza danych MySQL OLTP działająca na gołym metalu; obecnie brak wirtualizacji).

Z dokumentów Intela mogłem znaleźć:

Procesory Intel Xeon z serii 5500 i Intel Xeon z serii 5600 obsługują dublowanie kanałów w celu skonfigurowania dostępnych kanałów modułów DIMM DDR3 w konfiguracji dublowanej. Konfiguracja lustrzana jest nadmiarowym obrazem pamięci i może nadal działać pomimo obecności sporadycznych błędów, których nie można naprawić. Mirroring kanału to funkcja RAS, w której utrzymywane są dwa identyczne obrazy danych w pamięci, co zapewnia maksymalną redundancję.

Na płytach serwerowych Intel opartych na procesorach Intel Xeon Processor z serii 5500 i Intel Xeon Processor z serii 5600, dublowanie jest osiągane we wszystkich kanałach. Aktywne kanały przechowują obraz pierwotny, a pozostałe kanały przechowują obraz wtórny pamięci systemowej. Zintegrowany kontroler pamięci w procesorach Intel Xeon z serii 5500 i procesorach Intel Xeon z serii 5600 przełącza się między oboma kanałami w celu odczytu transakcji. Transakcje zapisu są wysyłane do obu kanałów w normalnych okolicznościach.

Jednak tak naprawdę nie rozumiem, co tu leżą. Tracę połowę pojemności pamięci, ale zyskuję „nadmiarowość” pamięci i możliwe korzyści w zakresie wydajności odczytu / zapisu? Jak RAID 1 dla RAM? Czy ktoś ma jakieś praktyczne doświadczenie z tą konfiguracją?

gravyface
źródło

Odpowiedzi:

7

Osobiście wolałbym raczej użyć jakiejś formy klastrowania niż tego poziomu odporności sprzętu. To ma sens, gdy tanie elementy, takie jak dyski, podwajają się na nich, ale pamięć lustrzana jest przyjemna, ale nie taka użyteczna. Mam na myśli to, co może bardziej zawieść; procesor, twój system operacyjny, twoje oprogramowanie, twoje mobo, twoje PSU / s. Wcześniej przeznaczam pieniądze na tworzenie klastrów.

Siekacz 3
źródło
1
Moje myśli dokładnie: chociaż z pewnością przydatne w przypadku bardzo konkretnego punktu awarii, mogłem zaznaczyć wiele innych „pól” HA, przechodząc przez ścieżkę klastrowania z innym blokiem lub dwoma (i prawdopodobnie inną obudową w innym centrum danych).
gravyface
1
klastrowanie nie pomoże ci, gdy obliczenia muszą być wykonane zgodnie z harmonogramem lub w ramce zębów. W niektórych sytuacjach przełączanie awaryjne trwa dłużej niż operacja, którą należy wykonać
Jim B
7

„RAID 1 dla RAM” to dokładny opis. Z mojego doświadczenia wynika, że ​​wydajność nie jest duża, ale w zależności od prędkości magistrali w porównaniu z prędkością modułów, przebieg może się różnić.

Jeśli chodzi o redundancję ... no cóż, nierzadko moduł się psuje.

Osobiście wyłączam dublowanie za każdym razem, gdy widzę, że jest włączony.

Shane Madden
źródło
2
dzięki Shane. Czy kiedykolwiek przeprowadzałeś jakieś testy porównawcze przed / po?
gravyface
@gravyface Nie mogę niestety powiedzieć, że mam; po prostu nie zauważyłem zauważalnej różnicy wydajności w porównaniu do wyłączania (na serwerach baz danych i hostach VM). Niektóre twarde liczby z pewnością byłyby fajne.
Shane Madden
2
Zrobię wtedy kilka testów porównawczych. Sprawdź, czy to robi różnicę. Nie mogę powiedzieć, że korzyść z korekcji błędów brzmi jak wymierna korzyść, ale jestem ciekawy, jak to działa. Poczekam kilka dni na dodatkowe odpowiedzi, a następnie zaznaczę to poprawnie.
gravyface
Widzę, że ściemniacze psują się regularnie, jednak biorąc pod uwagę wielkość środowiska, powinienem widzieć 1 ściemniacz co 2 tygodnie (statystycznie)
Jim B
4

Czytałem, że tego rodzaju rzeczy (możesz to zrobić również z procesorami) są bardzo przydatne w ogromnych klastrach superkomputerów.

Niektóre z tych klastrów działają na tak wielu komputerach, że co kilka godzin nastąpi awaria maszyny. Szybciej niż zadania mogą być wykonane. To naprawdę psuje obliczenia. Dodanie takiej redundancji do każdego węzła może ponad dwukrotnie wydłużyć czas między awariami.

Zan Lynx
źródło
więc są to rzeczy z wyższej półki, teraz spływające do głównego nurtu, rozumiem. Naprawdę nie widzę wartości dla moich potrzeb. W każdym razie dzięki.
gravyface
Tak, to high-end. Poczekaj, aż dostaniesz hot plug's CPU AND CPU MIRRORING (!) Na komputerze;) Komputery mainframe mogą przełączyć się na inną jednostkę centralną, gdy jedna z nich zawiedzie.
TomTom
3

Ten tryb pamięci został naprawdę zaprojektowany dla sytuacji, w których potrzebujesz wysokiej dostępności. Nie powinieneś widzieć dużej różnicy w wydajności (ponieważ utrata jednego kanału prawdopodobnie nie jest zauważalna w normalnych operacjach), ale faktycznie tracisz dużo pamięci RAM. Po włączeniu kopii lustrzanej dostępna jest tylko jedna trzecia całkowitej pamięci, ponieważ dwa gniazda DIMM są kanałem podstawowym, dwa gniazda DIMM są kanałem zapasowym, a dwa gniazda DIMM nie są używane. (przynajmniej tak jest w IBM)

Zwykle zalecam, aby go wyłączyć (jeśli masz aplikację lub system operacyjny, który lubi RAM - i spójrzmy prawdzie w oczy: czy jest taki, który nie?) Lub oszczędzaj na aktualizacji do chipsetu ex5 od IBM (HP i inne wkrótce z podobnymi ofertami), który dodaje ładunek QPI więcej.

Czasami zdarza się, że „ten serwer musi działać bez względu na liczbę oddanych strzałów” i ten rodzaj redundancji pomaga. Dodatkowo zakupiony RAM o jakości niższej niż gwiezdny może uratować Cię od niebieskiego ekranu lub 2.

Jim B.
źródło
Tak, nie widzę teraz takiej potrzeby. Oczywiście nikt nie lubi przestojów, ale kiedy zajmiemy się HA, z całą pewnością skupimy się na tworzeniu klastrów.
gravyface
1
to w odpowiedzi na twój „zobacz jeden zły moduł DIMM co dwa tygodnie” - jak często widzisz złe moduły DIMM po okresie karencji? Nie mogę sobie przypomnieć, że kiedyś miałem kiepską pamięć RAM podczas produkcji; Zazwyczaj zauważam to przez kilka pierwszych godzin / dni przy typowym obciążeniu pracą.
gravyface
Nasze wyniki odzwierciedlają współczynnik, jaki Google widzi cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . Podobnie skonfigurowaliśmy serwery - w pełni zapełnione płyty z dużą ilością ściemnień oraz aplikacje wymagające dużej ilości pamięci. Patrząc na 1 z moich środowisk vmware, widzę 3 złe ściemnienia w 18 w pełni zaludnionych IBM hs22vs (324 ściemnienia). Te serwery działają od około roku.
Jim B