jądro: błąd We / Wy dziennika zatwierdzenia

9

Mam pewne problemy z serwerem Dell 1950. Instaluję RHEL 4.6 wraz z Oracle i innym oprogramowaniem tutaj.

W mojej sesji ssh losowo pojawia się komunikat o błędzie „jądro: błąd we / wy zatwierdzenia dziennika” i na monitorze, do którego podłączyłem się do serwera, widzę błąd przewijania, który mówi: „Błąd EXT3-fs (urządzenie sda5) in start_transaction: Journal został przerwany. "

Stało się to kilka razy, ale nigdy w tym samym momencie podczas instalacji. Właściwie to ostatni raz system był uruchomiony i właśnie próbowałem zaimportować bazę danych do Oracle.

Stało się tak na kilku dyskach twardych, więc jestem pewien, że to nie jest problem. To sprawia, że ​​myślę, że kontroler rajdu idzie źle.

Co myślicie?

** AKTUALIZACJA **

Z pewnością był to zły dysk twardy. Wrzuciłem kolejny dysk do serwera, który działa przez około 48 godzin bez problemów.

jasondewitt
źródło

Odpowiedzi:

9

Widziałem te błędy wcześniej, ale nie podczas procesu instalacji.

Oznacza to, że na dysku pojawiło się tyle błędów, że system operacyjny przeniósł go do trybu tylko do odczytu. Gdyby można było znaleźć pełne dzienniki, prawdopodobnie wystąpiłyby błędy we / wy, które ponawiły się i działały przed błędami pełnego błędu, które zobaczyłeś. Coś ze wspomnianymi rzeczywistymi blokami.

To błąd systemu pamięci masowej. Zdecydowanie jest to karta RAID, dyski w macierzy RAID, kable od karty do dysków, płyta montażowa, z którą łączą się dyski, gniazdo, do którego podłączona jest karta RAID, zasilacz dysków twardych lub coś innego w między procesorem a rzeczywistymi blokami pamięci.

freiheit
źródło
2

Przychodzą mi na myśl trzy możliwości:

  1. Występują problemy z pamięcią (często powodują „losowe” awarie). Jeśli masz tam ramkę ECC, to oczywiście jest mniej prawdopodobne.

  2. Wystąpił problem z autobusem. Kilka lat temu miałem ten sam problem z uszkodzonym kontrolerem APIC na podwójnej płycie głównej Tyan Opteron. Wskazały na to inne wpisy w dzienniku, ale większość objawów to losowe uszkodzenie dysków twardych z automatycznym ponownym montowaniem tylko do odczytu. W moim przypadku wiedziałem, że nie jest to związane z dyskiem, ponieważ było to zewnętrzne urządzenie FC RAID i było w porządku.

  3. Kontroler RAID jest piętrowy.

Jest to w kolejności, w której rozważę problemy.

Alexandre Carmel-Veilleux
źródło
Prawdopodobnie nie ma problemów z pamięcią; będą one bardziej narażone na awarie segfaulta i więcej losowych błędów, nie ograniczając się tylko do przechowywania.
freiheit
Prawdziwe. Ale w przypadku instalacji lub wczesnego rozruchu większość pamięci zajmuje pamięć podręczna bufora, więc problemy pojawiają się tam jako pierwsze. Gdy maszyna działa przez pewien czas przez pewien czas, proces użytkownika dominuje we / wy pamięci, a więc częstość występowania segfault. To powiedziawszy, PE1950 powinien mieć procesory Xeon i RAM ECC, aby pamięć RAM mogła go wykryć i zgłosić Linuxowi.
Alexandre Carmel-Veilleux,
2

Może to być kontroler RAID, który działa źle, jak powiedziałeś (wypróbuj zapasowy, jeśli go masz). Może to być sterownik kontrolera (sprawdź alternatywne sterowniki, jeśli są dostępne, nawet jeśli wydajność jest gorsza, dobrze jest mieć punkt odniesienia .) Może to być jądro (mniej prawdopodobne, że w RHEL jest dość dobrze przetestowane.) Może to być zła pamięć RAM, która psuje pamięć podręczną bloków.

Problem sprzętowy jest jednak najbardziej prawdopodobną przyczyną, opartą na pozornie losowym zachowaniu błędu.

Mihai Limbăşan
źródło
2

Sprawdź, czy dysk nie jest pełny - w szczególności partycję root. Użyj df, aby zobaczyć użycie dysku systemu plików:

df -h

Poszukaj partycji bliskich lub równych 100% wykorzystaniu

Peter H.
źródło