Dyski twarde przechodzą w tryb offline z nieznanego powodu

11

Mam 7 systemów z poniższą konfiguracją. Od czasu do czasu inny dysk jest wyłączany, ale przy bliższej inspekcji dysk jest dobry i nie jest wadliwy i działa bezbłędnie przez co najmniej kolejny rok. Ponieważ dzieje się tak na wszystkich 7 systemach, wydaje mi się mało prawdopodobne, aby działała jedna część (np. Kabel), ale zamiast tego jest to połączenie niektórych części, które są nieco niezgodne.

Problem polega na zlokalizowaniu dokładnego punktu, w którym występuje niezgodność.

(Jeśli zamiast tego masz obejście, w którym możesz wykonać wirtualne ponowne umieszczanie dysku twardego z wiersza poleceń, możesz być w stanie odpowiedzieć /server/523315/re-activate-device -to-uważa się za martwe ).

Sprzęt serwerowy: Dell 1950, Dell R815, Dell R715.

System operacyjny:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Kontroler:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Ekspander SAS / SATA Supermicro 4U SAS / SATA Płyta montażowa z pojedynczym chipem ekspandera LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Dyski:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Dyski w jednym systemie:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
źródło
9
+1 za rozpoczęcie zadawania ważnych pytań :)
Sven
Zły kabel, któremu brakuje ekranowania, może powodować problemy z sumami kontrolnymi. [powodując w ten sposób problemy z czytaniem i pisaniem]. Czy próbowałeś wymienić kable?
mnichów
Kable zostały zastąpione znanymi towarami. Spodziewałbym się również, że Linux spróbuje ponownie wykonać polecenie po zresetowaniu magistrali scsi.
Ole Tange
2
Z tego, co udało mi się wykopać do tej pory, wiadomości wskazują, że występują problemy z łącznością - nie alarmy SMART ... może ktoś inny z dużym doświadczeniem BiY może pomóc. Wiem tylko, że trzymają się z dala od dysków S-ATA w dużych konfiguracjach z powodu braku poleceń / kolejek w porównaniu do SAS. Poproszę kilku, aby się temu przyjrzeli.
pauska
@pauska Czy możesz opracować (z linkami?) to, co wykopałeś?
Ole Tange

Odpowiedzi:

1

Brakuje tutaj informacji. Sugerujesz, że masz 24-45 dysków na serwer w tej konfiguracji pamięci.

  • Z jakich kontrolerów korzystasz?
  • Ze względu na liczbę dysków niektóre dyski mogą znajdować się w obudowie zewnętrznej. Proszę podać markę / model używanej zewnętrznej obudowy napędu.
  • Z jakich konkretnych modeli napędów korzystasz? Czy wszystkie dyski są klasy komputerowej?
  • Z jakiego systemu plików korzystasz?
  • Opisz układ dysku i RAID.
  • Czy to zawsze był problem, czy rozwijał się z czasem?
  • czy Supermicro jest zaangażowane w tę konfigurację?

W zależności od konfiguracji obudowy mogą występować przekroczenia limitu czasu SATA lub błędy magistrali. Może to mieć zły wpływ na wszystkie napędy podłączone do kontrolera.

Innym problemem może być słaba negocjacja łącza SAS / SATA. Z pewnością doświadczyłem tego na niektórych ekspanderach SAS, gdy dyski 1,5 Gb / s i 6,0 Gb / s są połączone na tej samej płycie.

Podaj więcej informacji.

ewwhite
źródło
Jestem bardzo zainteresowany twoim pytaniem o Supermicro. Czy możesz rozwinąć?
Halfgaar
@Halfgaar Czy możesz przekazać opinię na temat innych pytań, które zadałem?
ewwhite
Oryginalny post nie jest mój. Jestem ciekawy tego stwierdzenia.
Halfgaar
1
@Halfgaar Ooops ... No cóż, odkryłem, że Supermicro SAS rozszerzyło / backplanes i niektóre obudowy JBOD nie zachowują się przewidywalnie w wielu okolicznościach. Notatka w mojej odpowiedzi na temat redukcji prędkości SAS / SATA i negocjacji linków jest czymś, czego doświadczyłem tylko w niektórych wersjach sprzętu Supermicro. Nie mogę też używać ich JBOD dla ZFS z powodu dziwnego zachowania.
ewwhite