Niespójne testy pamięci RAM - co jest najbardziej prawdopodobnym winowajcą? (tj. na co powinienem wydawać pieniądze na wymianę)

20
  • Płyta główna: GA-B85M-DS3H-A
  • Procesor: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 GB (4x8 GB) 1600 MHz (MD32768K4D3-1600-X9)
  • Zasilacz: EVGA 500 W1 80+

Problem

Po zainstalowaniu wszystkich 32 GB pamięci RAM system konsekwentnie zawiesza MemTest86 + 6.2. Awaria zawsze występuje podczas pierwszego przejścia, a błędy szybko rosną do milionów błędów. Próba uruchomienia systemu Windows powoduje losowe ponowne uruchamianie i błędy Stop (jak można się spodziewać w przypadku błędów pamięci RAM).

Co próbowałem

  • Przetestuj pojedynczy moduł PNY 8 GB w gnieździe DIMM1. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj pojedynczy moduł PNY 8 GB w gnieździe DIMM2. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj pojedynczy moduł PNY 8 GB w gnieździe DIMM3. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj pojedynczy moduł PNY 8 GB w gnieździe DIMM4. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj oddzielnie wszystkie cztery moduły PNY DIMM 8 GB osobno w gnieździe DIMM1. Wszystkie moduły pomyślnie ukończyły 4 przebiegi MemTest.
  • Przetestuj dwa moduły PNY 8 GB w gniazdach DIMM1 i DIMM2. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj dwa moduły PNY 8 GB w gniazdach DIMM3 i DIMM4. Pomyślnie wykonuje 4 etapy MemTest.
  • Przetestuj płytę główną za pomocą czterech znanych DIMM 2 GB we wszystkich gniazdach. Pomyślnie wykonuje 4 etapy MemTest.
  • Zamień kolejność modułów PNY DIMM w gniazdach. Bez zmian - nadal występują błędy MemTest.
  • Podnieś napięcie pamięci RAM płyty głównej z 1,5 V do 1,65 V. Bez zmian - nadal występują błędy MemTest.
  • Graj z różnymi kombinacjami ręcznych ustawień pamięci RAM w narzędziu instalacyjnym - włączanie / wyłączanie profilu XMP, ustawienie wstępnego ustawienia „zwiększonej stabilności” itp. Brak zmian, błędy MemTest nadal występują.

Myślę, że mogę bezpiecznie wykluczyć złą pamięć RAM i złe gniazda pamięci RAM. Tylko razem memtest testów nie jest, jeśli wszystkie cztery moduły 8GB są instalowane jednocześnie.

Zmierzyłem napięcia wychodzące z zasilacza i wszystko wydaje się stabilne nawet po zainstalowaniu wszystkich czterech drążków.

Pisząc to, wypróbowałem ostateczną opcję ręcznego zmniejszenia szybkości pamięci RAM do 1066 MHz w systemie BIOS. Jak dotąd MemTest ukończył jedno przejście i jest na drugim bez żadnych błędów. (Wszystkie powyższe testy zostały przeprowadzone przy natywnej prędkości RAM 1600 MHz.) Może to pozwolić mi na korzystanie z systemu, choć z nieco wolniejszymi prędkościami RAM, ale nie wydaje się to być stałą poprawką.

Ilekroć występują błędy MemTest, zawsze pojawiają się w tej samej dokładnej pozycji na 64-bitowej magistrali adresowej:

Bit Error Mask: 00000000FF000000

Ponadto błędy NIGDY nie występują poniżej bariery 4 GB. Innymi słowy, wszystkie błędy występują w przestrzeni adresowej między 4 GB a 32 GB.

Wydaje mi się, że jest to jakiś dziwny problem z interakcją lub synchronizacją procesora, pamięci RAM i płyty głównej, ponieważ błędy są bardzo spójne, występują tylko w jednej konkretnej konfiguracji, wydają się być złagodzone przez spowolnienie pamięci RAM i występują tylko powyżej bariery 4 GB. Moje pytanie brzmi: czy bardziej prawdopodobne jest, że przyczyną jest mój procesor lub płyta główna?

Zamierzałem uaktualnić tę maszynę do Core i7-4790K, więc jeśli procesor jest prawdopodobnym winowajcą (wiem, że kontroler pamięci jest na CPU w tych nowszych modelach), to działa dobrze, ponieważ planuję uaktualnić tak czy inaczej, ale zastanawiam się, czy istnieje szansa, że ​​sama płyta główna może być częścią problemu. tzn. nie chciałbym wydawać pieniędzy na procesor i7, aby doświadczyć dokładnie tego samego problemu i dowiedzieć się, że muszę wymienić płytę główną ...

Rada?


EDYCJA: Wolniejsza prędkość pamięci RAM wciąż powodowała błędy, ale tylko wtedy, gdy test osiągnął trzeci przebieg. Ponownie uruchomiłem test z aktywnym tylko jednym procesorem, aby przetestować interakcję z samym procesorem.

fdmillion
źródło
Jedynym sposobem na potwierdzenie, czy jest to pamięć, mobo czy procesor, jest przetestowanie pamięci RAM w innym kompatybilnym systemie.
Moab
2
Jeśli problem nie rozwiąże się podczas przenoszenia układów pamięci RAM, płyta główna jest tosser.
Joshua
1
Kiedy używasz tej pamięci podwójnie lub gdy masz 4 (8 g) modułów, prawdopodobnie możesz ją wyłączyć z SPD (auto) i nieco poprawić taktowanie i sprawić, by działało. powiedzmy, że to 10,11,10,24 dostrój go do 11,12,11,32 i przetestuj w ten sposób. (tak, to zgadywanie) Jeśli to działa w 100% non-stop, to jest mniej prawdopodobne, że będzie to problem z przegrzaniem lub problem z płytą główną. Ludzie z modułami 4x8gig mieli wcześniej opisane problemy, jeśli istnieje obsługa regulacji napięcia, a procesor nie ma wygiętych styków, może to być sposób, aby sprawić, że rzeczy nie znajdujące się na liście kompatybilności działają. więc przetestuj to i wróć do nas.
Psycogeek
2
„Wolniejsza prędkość pamięci RAM wciąż powodowała błędy, ale tylko wtedy, gdy test osiągnął trzeci przebieg” Czy podczas wykonywania tych czynności podejmujesz dodatkowe kroki w celu przetestowania chłodzenia suwaka? Nawet tymczasowo dodany wentylator lub wentylator zewnętrzny poruszający powietrze po siłowniku i jego obwodzie regulującym napięcie mogą sprawdzić, czy ciepło jest jednym z problemów.
Psycogeek
@Psycogeek +1 za zasugerowanie modyfikacji czasu. Niektóre moduły RAM nie działają dobrze z innymi pod względem czasu (nawet tej samej marki lub typu modułu). Miałem podobny problem do OP i rozwiązałem ręcznie ustawiając czasy.
Amziraro

Odpowiedzi:

18

Nie brzmi to tak, jakby jakikolwiek komponent był uszkodzony, a raczej używasz niekompatybilnej kombinacji.

Posiadanie wielu gniazd na tej samej magistrali pamięci zwiększa pojemność na każdej linii danych i spowalnia czas narastania, co może powodować późne pojawienie się przejść i nieprawidłowe wykrycie. Zjawisko to znane jest inżynierom elektrykom jako „fan-out”.

Jest to dodatkowo skomplikowane ze względu na wewnętrzne rozwinięcie modułu pamięci. Liczba i topologia urządzeń DRAM w module, zwana „pozycją”, wpłynie na liczbę modułów, które można z powodzeniem połączyć równolegle.

Płyty główne serwera obsługujące wiele gniazd pamięci w rzeczywistości wymagają pamięci buforowanej, która wykorzystuje kaskadową sieć buforów w celu ograniczenia wentylacji (a zatem i pojemności) widzianej przez każde z nich. Występuje opóźnienie spowodowane przez same bufory, ale zwiększa się ono tylko logarytmicznie z liczbą obciążeń, podczas gdy dla niebuforowanej pamięci pojemność wzrasta liniowo.

Wikipedia omawia to: https://en.wikipedia.org/wiki/Memory_rank

Niektóre instrukcje obsługi płyt głównych wywołują tego rodzaju problemy. Dla innych możesz wywnioskować informacje z list kompatybilności pamięci RAM. Na przykład płyta główna ASUS Z170-A pokazuje, że podwójnej rangi (w instrukcji nazywanej DS = dwustronna) można używać tylko w dwóch gniazdach na tej płycie, w przeciwieństwie do możliwości używania czterech modułów DIMM jednokierunkowych jednocześnie .

wprowadź opis zdjęcia tutaj

Ben Voigt
źródło
Zakładając, że to jest przyczyną problemu, czy pomogłoby to wyłączyć SPD i nieco zmienić ustawienia taktowania, aby zrekompensować wolniejsze czasy narastania / opadania?
brhans
1
Nie jestem pewien, czy to jest rzeczywiście poprawne. Konsumenckie procesory Haswell zazwyczaj obsługują cztery stopnie pamięci na kanał, co wystarcza, aby umożliwić cztery dwustronne moduły w dwóch kanałach pamięci. Dlaczego miałby to być problem? Nie wydaje się to również tłumaczyć faktu, że problemy występują tylko powyżej bariery 4 GB. Co więcej, instrukcja płyty głównej stwierdza, że ​​podstawowy chipset B85 obsługuje 32 GB pamięci i nie wspomina o żadnych ograniczeniach dotyczących liczby poziomów pamięci.
bwDraco
2
@bwDraco: Mimo że kontroler pamięci znajduje się w procesorze, płyta główna również ma znaczenie. Układ PCB może na to wpływać, niedopasowane dopasowanie długości zmniejszy margines fazowy na sygnałach (dlatego też błędy korelują z pewnymi bajtami lub pozycjami bitów). To, że instrukcja płyty głównej nie mówi o szeregach, nie oznacza, że ​​wszystkie kombinacje są obsługiwane, to po prostu oznacza, że ​​to bzdura, która nie wchodzi w szczegóły.
Ben Voigt
1
@brhans: Nie liczą się parametry taktowania, ale częstotliwość taktowania pamięci, ponieważ problemem jest transfer między procesorem a modułami DIMM, a nie wewnętrzny w pamięci DRAM. SPD zwykle ma wiele profili odpowiadających różnym częstotliwościom zegara, wybór innego z nich byłby lepszy niż przejście w pełni manualne.
Ben Voigt
1
Zdecydowanie wydaje się to kwestią integralności sygnału płyty głównej. Większe moduły mogą mieć wyższą pojemność na pin niż mniejsze moduły, zwłaszcza jeśli same moduły mają podwójną rangę. Może to powodować dokładnie ten problem, gdy w pełni zaliczysz szeregi. Moduł może mieć więcej niż jedną pozycję. Tak więc cztery stopnie na kanał mogłyby łatwo stanowić dwa moduły o wysokiej gęstości podwójnej rangi. Może to zaostrzyć charakterystyka elektryczna i przebieg śladów na płycie głównej. Moja sugestia: wypróbuj inną płytę główną.
alex.forencich
9

To brzmi jak problem ze zintegrowanym kontrolerem pamięci procesora .

We współczesnych systemach płyty główne nie odgrywają tak naprawdę roli w zarządzaniu pamięcią, a jedynie zapewniają ścieżkę między modułami pamięci a procesorem. Pamięć jest bezpośrednio podłączona do procesora, aby zminimalizować opóźnienia; „ mostek północny ”, który łączy pamięć z procesorem w starszych systemach, jest teraz częścią samego procesora. (Oprogramowanie układowe lub PCH może kontrolować sposób, w jaki procesor uruchamia pamięć RAM, ale nie ma sensu powodować błędów bitowych opisywanego rodzaju, ponieważ to ostatecznie procesor ponosi odpowiedzialność). Dlatego pierwszą rzeczą, którą „ Podejrzewam, że w takiej sytuacji jest to wadliwe IMC.

W rzeczywistości byłbym bardzo zaskoczony, gdyby płyta główna lub oprogramowanie układowe były odpowiedzialne za napotkane problemy.

bwDraco
źródło
Co z wygiętą szpilką?
Michael Hampton
6
@Michael: Wygięty pin spowodowałby również awarie testowania poszczególnych modułów.
Ben Voigt
4

Widzę złe recenzje BIOS-u na tej płycie głównej. Zacznę od sprawdzenia aktualizacji systemu BIOS. Nigdy nie oszczędzaj na płycie głównej.

Atoadaso
źródło
BIOS jest aktualny. Wprawdzie pamięć RAM nie znajduje się na liście „kwalifikowanych”, ale ma takie same czasy jak wiele innych wymienionych tam modułów.
fdmillion
Chciałbym wtedy wymienić płytę główną. Nie musi to być najwyższa linia, po prostu zacznij od przedziału cenowego, na który Cię stać, i poszukaj tych, które mają najwięcej recenzji (przeczytaj je). Osoby z największą liczbą użytkowników znacznie częściej mają długoterminową obsługę aktualizacji BIOS-u i chipsetu.
Atoadaso
Czy sprawdziłeś, czy ta płyta główna jest w stanie poprawnie obsłużyć 32 GB pamięci jednocześnie? Ponadto możesz znaleźć układ menedżera pamięci na płycie głównej i sprawdzić, ile pamięci powinno być w stanie poprawnie obsługiwać.
milesrf
1

Możliwe, że pamięć RAM może być również wadliwa, nawet jeśli nie wydaje się, że tak jest. Miałem niedawno problem z moim serwerem domowym dotyczący śmiertelnego nieszczęścia z mrożoną herbatą ...

Przeszedłem przez cały proces wymiany każdej części osobno (2 procesory, mobo, powerupply i 2 banki 16 GB (2x8GB) RAM) i wszystko testowałem dobrze, gdy tylko użyłem jednego banku RAM z jednym procesorem (z wyjątkiem 1 procesor, który był tostem).

Nieważne, jakiej konfiguracji użyłem, zawsze działało, gdy miałem jeden procesor i bank RAM (czy to 16 GB, czy 32 GB RAM), ale kiedy włożyłem drugi procesor i podzieliłem RAM, więc było 16 GB na bank, serwer nie uruchomił się.

Dopiero, gdy całkowicie wymieniłem jeden zestaw pamięci RAM, w końcu uruchomił się i działał poprawnie i tak jest.

tl; dr : Jak stwierdził @moab w swoim komentarzu, nigdy nie możesz tego powiedzieć na pewno, dopóki nie przetestujesz każdego komponentu w kompatybilnym systemie

Taegost
źródło