streszczenie
Dostaję te tajemnicze wiadomości do syslog, odkąd zainstalowałem nowy sprzęt i nie mogę zrozumieć, na czym polega problem, czy jest poważny, czy co z tym zrobić.
Pochodzą z nowej karty SATA HBA i podążają za wzorem. Otrzymam kilka pierwszych wiadomości, a następnie kilka drugich 5-30 sekund później. Występują w obiektach blob, które są rejestrowane w tej samej sekundzie, a dokładna liczba każdego z nich wynosi od około 2 do 35. Pomiędzy pojawieniem się wpisów mogą być minuty lub godziny.
Przykład dwóch wiadomości:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Zawsze jest to zawsze 0x31120303, a po nim 0x31110d01.
mpt2sas to sterownik karty magistrali hosta SATA, której używam, ale treść błędu jest zbyt tajemnicza. Nie mówi mi, na czym polega problem, z jakim dyskiem lub portem jest ani jak poważny.
Sprzęt komputerowy
Supermicro X9SCL z Xeon E3-1220 i 8 GB pamięci RAM.
Supermicro AOC-USAS2-L8I SAS / SATA HBA oparty na LSI SAS2008 podłączony do zestawu tac dyskowych Supermicro CSE-M35T-1B . Posiada trzy Western Digital WD30EZRX i dwa Segate ST3000DM001 . Wszystkie dyski 3 TB (dokładnie tyle samo sektorów). Brak używanych ekspanderów portów.
Karta HBA, tace dysków i 4 dyski są nowe. Jeden z WD30EZRXes był już od miesięcy, nie miał z nim żadnych problemów. Gdyby wcześniej był podłączony do zintegrowanego kontrolera Intel SATA, przeniósł go do wnęk na dyski dzięki tej nowej konfiguracji.
Miałem problemy z częstym resetowaniem karty HBA i uzyskiwaniem naprawdę okropnej wydajności. Zaktualizowałem oprogramowanie / bios do „Phase 12”, najnowszej wersji dostępnej od Supermicro i zmieniłem typ na IT (tj. Przejściowy, z IR dla zintegrowanego raidu, ponieważ zamierzałem używać całego oprogramowania raid): 2008IT12.FW. Ta aktualizacja usunęła wszystkie wczesne problemy i nie zaczęłam otrzymywać powyższych wiadomości później (patrz poniżej).
Pierwsze cztery dyski, które dodałem, znajdują się na pierwszym porcie SFF-8087 (podzielonym na 4 kable SATA). Najnowszy dysk, który dodałem, znajduje się na drugim porcie, jeśli to ma znaczenie.
Jedyny inny dysk w systemie zawiera system operacyjny i jest to starszy dysk SSD Intel 80 GB podłączony do zintegrowanego kontrolera SATA.
Oprogramowanie
Ubuntu 11.10 (oniryczny). Linux 3.0.0-14-server x86_64. Korzystanie ze sterownika mpt2sas dostarczanego z systemem operacyjnym.
Próba zbudowania macierzy RAID6 przy użyciu Linux md z tymi pięcioma dyskami. Zaczęliśmy od zdegenerowanej macierzy 3 dysków, dwóch segmentów i jednego z nowych dysków WD. To było szybkie i poszło bardzo dobrze, brak wiadomości w logach po aktualizacji oprogramowania. Tymczasem nadal używam starego dysku WD na porcie 0 tego samego kontrolera.
Dodano inny nowy dysk WD do macierzy. Rozpoczęto przebudowę i teraz okresowo otrzymuję te wiadomości w syslog. Nie jestem pewien, ile czasu zajmie dodanie dysku do tablicy, ale szacowany czas (cat / proc / mdstat) wynosi od tysięcy do dziesiątek tysięcy minut, znacznie dłużej niż zajęły pierwsze 3 dyski. Rozumiem, że dyski WD są znacznie wolniejsze; Dostałem różne modele, aby zmniejszyć ryzyko awarii wielu dysków, a były to dwa najtańsze modele 3 TB.
Notatki
SMART nie zgłasza żadnych problemów na żadnych dyskach. Na żadnych dyskach nie ma zarejestrowanych błędów i żadne statystyki błędów nie są bliskie progu.
Zalogowane wiadomości zaczęły pojawiać się dopiero po dodaniu ostatniego dysku, co sugeruje, że może występować problem, ale nic więcej na to nie wskazuje.
Znalazłem plik nagłówka, który wydaje się odpowiadać komunikatom rejestrowania z tego sterownika. Pierwsza wiadomość wydaje się być przerwaniem (kod 12) dla „subkodu” 0303, którego nie ma na liście. Drugi komunikat to reset (kod 11) z powodu, który również nie jest jasny. Gdybym mógł ustalić, co oznaczają 0303 i 0d01, byłoby to naprawdę pomocne.
Wiem, że 4 dyski w 5-dyskowym RAID6 to niepełna tablica. Planuję skopiować zawartość starego dysku do tablicy po zakończeniu integracji czwartego dysku, a następnie dodać również stary dysk do tablicy.
Łał, trudny.
To wydaje się wskazywać, że 0x31120303 jest resetem magistrali z powodu dużego obciążenia jednego z urządzeń. Mówi także, że nie musisz się tym martwić. (Haha, tak, tak.)
Oznacza to, że te komunikaty dziennika mają miejsce, ponieważ jedno z urządzeń zbyt długo reaguje na polecenia. To mówi to samo, a także wskazuje, że występuje pod dużym obciążeniem.
Chociaż nie jest to pełna odpowiedź, mam nadzieję, że wskaże ci przydatny kierunek.
źródło
Oznacza to, że masz jakiś błąd na dysku, jest to dysk SATA w kontrolerze SAS z LSI i z powodu błędu wszystkie zaległe żądania zostały przerwane.
W większości przypadków na dysku występuje średni błąd, który jest przyczyną tego błędu. Ten błąd sam w sobie nie oznacza średniego błędu i musisz sprawdzić w dziennikach inne wskazówki, aby znaleźć źródło pierwotnej awarii dysku.
Nieco bardziej rozbudowana wersja na: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
źródło