Dlaczego niepodzielony na partycje dysk Hitachi HDS5C3020 zaczyna zużywać o 50% więcej energii 15 minut po uruchomieniu?

19

W systemie Debian 6.0.6 znajduje się 74 sztuk dysków Toshiba DT01ABA200 o pojemności 2 TB. Dyski te są oznaczone jako dyski Hitachi HDS5C3020BLE630 z wersją oprogramowania układowego MZ4OAAB0. 64 Dyski podłączone za pomocą kart rozszerzeń HP SAS do kontrolera LSI 2008 SAS, kolejne 5 dysków jest podłączonych bezpośrednio do płyty głównej, 4 dyski są podłączone do kontrolera PCI opartego na Sil, a ostatni 1 dysk jest zasilany i nie ma kabla danych. Zintegrowane BIOS kontrolera LSI i karty Sil są wyłączone, a moduły mpt2sas i sata_sil są usuwane z jądra Linux Debian 2.6.32-5-amd64 # 1 SMP Sun Sep 23 10:07:46 UTC 2012 x86_64 GNU / Linux. Moduł mpt2sas jest ładowany po uruchomieniu za pomocą komendy modprobe w /etc/rc.local. Te 74 dyski nie są podzielone na partycje, ani sformatowane, ani nie są zamontowane.

System zużywa:

  • z 0 napędami : 70,6 - 70,9 W (również 15 minut po uruchomieniu);
  • z 74 dyskami : 330 - 360 W, zaraz po uruchomieniu (odpowiada 3,5 - 3,9 W na dysk w stanie bezczynności);
  • z 74 napędami : 420 - 466 W, za każdym razem w 15 minucie bezawaryjnej pracy (odpowiada 4,7 - 5,3 W na napęd w stanie bezczynności).

Specyfikacja napędu podaje 4,7 W jako odczyt / zapis, a 3,3 W jako pobór mocy na biegu jałowym.

Zwiększony pobór mocy jest najprawdopodobniej na linii 5 V, ponieważ po około 1 minucie „zabezpieczenie nadprądowe” (OCP) zasilacza (PSU) wyłącza zasilanie. Zastosowany zasilacz to model z pojedynczą szyną z OCP> 122A na linii 12V i> 55A na linii 5 V.

Regresja:

  • Nie ma znaczenia, czy dysk ma wartość APM ustawioną na wyłączoną, czy 1 (maksymalna oszczędność energii).
  • System operacyjny nie rejestruje żadnych operacji odczytu / zapisu /proc/diskstats. Wartości są identyczne (28 operacji odczytu, 0 operacji zapisu) jak bezpośrednio po operacji modprobe.
  • Nie można przetestować, co dzieje się podczas uruchamiania systemu na płycie głównej - BIOS - aby wykluczyć jakąkolwiek interwencję systemu operacyjnego - ponieważ płyta główna Super Micro X8SI6-F z oprogramowaniem układowym 06/27/12 ma błąd, który nieprawidłowo odczytuje temperaturę czujnika procesora +74.0 C jako „ High ”w trybie BIOS i wyłącza zasilanie po 1 minucie.

Co może powodować aktywność odczytu / zapisu na wszystkich dyskach w 15 minucie po uruchomieniu i jak temu zapobiec?

Pro Backup
źródło
Ciekawe ... Jaki to system? System kopii zapasowej? Wszystkie oprogramowanie RAID?
ewwhite
Obecnie tylko testy, przeznaczone do przechowywania kopii zapasowych bez RAID. Redundancja zostanie zapewniona przez opcjonalne serwery pomocnicze i trzeciorzędne.
Pro Backup
@ewwhite przypomina mi strąki Backblaze. Ktoś musiał wymienić to imię.
Dmitrij Chubarow,
@Dmitri Chubarov To jest jak pamięć masowa Backblaze, ale bez mnożników portów SATA, wysokości 5U, bez RAID, 74 zamiast 45 dysków, pojedynczego zasilacza, tylko 2,0 W zużycia energii do chłodzenia, a gdy wszystkie dyski obracają się bezczynnie, mając różnica temperatur wynosząca 6 stopni między najbardziej chłodnym i najcieplejszym napędem.
Pro Backup

Odpowiedzi:

20

Wygląda na to, że dyski wykonują czyszczenie SMART (automatyczne testowanie offline).

smartctl -a /dev/hdx

powinien potwierdzić konfigurację za pomocą:

Auto Offline Data Collection: Enabled.

Wyłącz za pomocą:

smartctl --offlineauto=off /dev/hdx

To może być coś innego ...

Chris S.
źródło
smartctl --offlineauto=offwykonał lewę. Przynajmniej przez 32 minuty nie ma już znacznego wzrostu zużycia energii, co powoduje wyłączenie OCP zasilacza. Jako bonus hdparm -SX ustawia teraz dyski z „aktywnego / bezczynnego” na „tryb gotowości”. Jednak dyski podłączone do kontrolera sata_sil nie mogą być kontrolerem. Tymczasowym rozwiązaniem jest tymczasowe podłączenie tych napędów do innego kontrolera. Ustawienie gromadzenia danych offline przetrwa restarty i cykle zasilania.
Pro Backup