Czy w niektórych sytuacjach dyski „korporacyjne” można bezpiecznie zastąpić dyskami zbliżonymi / środkowymi?

22

Określając serwery, takie jak (przypuszczam) wielu inżynierów, którzy nie są ekspertami w dziedzinie pamięci masowej, ogólnie będę grać bezpiecznie (i być może niewolnikiem marketingu), standaryzując na co najmniej 10 000 dysków SAS (a zatem „ Enterprise - uaktualnij z 24-godzinnym cyklem roboczym itp.) dla danych „systemowych” (zwykle systemu operacyjnego, a czasem aplikacji) i zastrzegaj korzystanie z 7,2 tys. dysków średnich / bliskich do przechowywania danych niesystemowych tam, gdzie wydajność nie jest znacząca czynnik. To wszystko przy założeniu, że dyski 2,5 "(SFF), ponieważ dyski 3,5" (LFF) są naprawdę odpowiednie tylko w przypadku wymagań o dużej pojemności i niskim IOP.

W sytuacjach, w których nie ma ogromnej ilości danych niesystemowych, zazwyczaj umieszczam je na tych samych dyskach / macierzy, co dane systemowe, co oznacza, że ​​serwer ma tylko 10k dysków SAS (zazwyczaj „One Big RAID10”) konfiguracji w tych dniach). Tylko jeśli wielkość danych niesystemowych jest znacząca, zwykle rozważam umieszczenie ich na osobnej tablicy 7,2k dysków środkowych / pobliskich, aby obniżyć koszt / GB.

Doprowadziło mnie to do zastanowienia: czy w niektórych sytuacjach te 10k dysków w macierzy RAID10 można zastąpić 7,2k dysków bez żadnych znaczących negatywnych konsekwencji? Innymi słowy, czy czasami przesadzam (i dbam o to, by dostawcy sprzętu byli zadowoleni), trzymając się co najmniej 10 tys. Dysków klasy „korporacyjnej”, czy też jest dobry powód, aby zawsze trzymać się tego jako minimum?

Weźmy na przykład serwer, który działa jak hiperwizor z kilkoma maszynami wirtualnymi dla typowej małej firmy (powiedzmy 50 użytkowników). Firma ma średnie wzorce we / wy bez specjalnych wymagań. Typowe biuro od poniedziałku do piątku w godzinach 9-5, z kopiami zapasowymi działającymi przez kilka godzin w nocy. Maszynami wirtualnymi może być serwer DC i serwer plików / drukowania / aplikacji. Serwer ma macierz RAID10 z 6 dyskami do przechowywania wszystkich danych (danych systemowych i niesystemowych). Moim nieprofesjonalnym okiem wygląda na to, że dyski środkowe / bliskie mogą być w porządku. Biorąc za przykład dyski HP:

  • Obciążenie: dyski środkowe są oceniane na obciążenie <40%. Ponieważ biuro jest otwarte tylko przez 9 godzin dziennie, a średnia liczba operacji we / wy w tym okresie prawdopodobnie nie będzie bliska maksymalnemu, wydaje się, że obciążenie pracą nie przekroczy 40%. Nawet przy kilku godzinach intensywnych operacji we / wy w nocy dla kopii zapasowych, domyślam się, że nadal będzie poniżej 40%
  • Szybkość: Chociaż dyski mają tylko 7,2 tys., Wydajność poprawia się, rozkładając je na sześć dysków

Więc moje pytanie: czy rozsądne jest wbicie minimum 10k dysków SAS, czy też 7,2k dysków w linii środkowej / bliskiej linii jest w rzeczywistości więcej niż wystarczających w wielu sytuacjach? Jeśli tak, to jak ocenić, gdzie jest linia i uniknąć bycia niewolnikiem ignorancji, grając w nią bezpiecznie?

Moje doświadczenie dotyczy głównie serwerów HP, więc powyższe może być nieco pochylone przez HP, ale zakładam, że zasady są dość niezależne od dostawcy.

dbr
źródło
3
Dyski SFF 7,2 tys. Linii środkowej nie mają sensu ze względu na ograniczenia pojemności i obowiązków. Jeśli mówisz o sprzęcie HP (moja specjalność) , dyski SAS 900 GB i 1,2 TB 10 kB będą najlepszą opcją, jeśli nie używasz dysków SSD. Jeśli jesteś w USA, 900 GB SAS powinno wynosić ~ 300-400 USD, jeśli masz dobrego sprzedawcę.
ewwhite
1
Drobna skarga gramatyczna: jeśli powiesz „zamień X na Y”, oznacza to, że miałeś Y na początek i zamieniasz go na X.
pjc50
2
Na pewno mieszkasz w 2015 roku? Ponieważ od kilku lat moim dyskiem z systemem operacyjnym jest mały dysk SSD (oszczędza energię itp.) I nie dotknąłbym żadnego dysku HD, aby uzyskać wysoką wydajność.
TomTom
1
@TomTom Nie, jestem w 2016 roku :) Z całą powagą, tak naprawdę tego nie rozważałem. Jak powiedziałem w moim poście, zazwyczaj wybieram obecnie podejście „jeden wielki RAID 10”, więc OS będzie tam działał. Rozdzielenie systemu operacyjnego na oddzielny dysk SSD wydaje się marnotrawstwem, jeśli nie jest to naprawdę konieczne. Chciałbym usłyszeć twoje myśli. Czy użyłbyś pojedynczego dysku SSD lub pary lustrzanej? Być może samo w sobie byłoby to dobre pytanie SF ...
dbr
1
Dublowana para dla systemu operacyjnego. HP sprzedaje nawet dyski SSD specyficzne dla systemu operacyjnego / rozruchu.
ewwhite

Odpowiedzi:

25

Jest tu interesujące skrzyżowanie projektowania serwerów, technologii dyskowej i ekonomii:

Zobacz także: Dlaczego dyski typu Large Form Factor (LFF) są nadal dość rozpowszechnione?

  • Przejście w kierunku gęstych serwerów montowanych w szafach typu rack i małych obudów. Np. Nie widzisz już wielu ofert wież od głównych producentów, podczas gdy gęstsze linie produktów cieszą się częstszymi zmianami i mają więcej opcji / dostępności.
  • Stagnacja w rozwoju dysków korporacyjnych 3,5 "(15 tys.) - 600 GB 15 tys. 3,5" jest tak duża, jak tylko możesz.
  • Powolny postęp w zakresie pojemności dysków 2.5 "near line (7.2k) - 2 TB to największy, jaki tam znajdziesz.
  • Zwiększona dostępność i niższe ceny dysków SSD o dużej pojemności.
  • Konsolidacja pamięci do pamięci współdzielonej. Obciążenia pojedynczego serwera wymagające dużej pojemności mogą czasem być obsługiwane przez SAN.
  • Dojrzewanie wszystkich pamięci flash i hybrydowych macierzy pamięci oraz napływ startupów pamięci masowej.

Z powyższych powodów zazwyczaj spotykają się producenci koncentrujący się na serwerach 1U / 2U z wnękami na dyski 8-24 2,5 ".

Dyski 3,5 "są przeznaczone do zastosowań o dużej pojemności o niskim IOP (2 TB +). Najlepiej nadają się one do zewnętrznych obudów pamięci lub pamięci SAN na czele z jakąś formą buforowania. W przedsiębiorstwach o prędkości 15 000 obr./min są dostępne tylko do 600 GB.

Wirujące dyski 2,5 "10k RPM są przeznaczone do wyższych potrzeb IOPS i są ogólnie dostępne do pojemności 1,8 TB.

Wirujące dyski 2,5 "7,2 tys. Obr./min to kiepskie połączenie, ponieważ nie oferują ani pojemności, wydajności, długowieczności, ani korzyści cenowych. Np. Koszt dysku twardego 10 000 GB o pojemności 900 GB jest bardzo zbliżony do kosztu 7,2 tys. Obr./min SAS 1 TB. Biorąc pod uwagę niską cenę Różnica polega na tym, że lepiej kupić dysk o pojemności 900 GB. W przypadku 1,8 TB 10k SAS w porównaniu z 2,0 TB 7,2k SAS , ceny są również bardzo zbliżone. Gwarancje wynoszą odpowiednio 3 lata i 1 rok.

Tak więc w przypadku serwerów i wewnętrznej pamięci masowej 2,5 ", użyj dysku SSD lub 10k. Jeśli potrzebujesz pojemności i masz wnęki na dyski 3,5" dostępne wewnętrznie lub zewnętrznie, użyj prędkości obrotowej wynoszącej 7,2 tys.

W opisanych przypadkach użycia nie konfigurujesz nadmiernie serwerów. Jeśli mają wnęki na dyski 2,5 ", to po prostu powinieneś używać 10 k SAS lub SSD. Dyski środkowe tracą wydajność, pojemność, mają znacznie krótszą gwarancję i nie oszczędzają dużo.

ewwhite
źródło
Dziękujemy za poświęcenie czasu na połączenie tego. Jutro będę miał okazję odpowiednio się zastanowić. Wystarczy rzucić okiem na ceny, wygląda to na około 30% skok między 7 TB 7,2k a 900GB 10k, co nie jest ogromne (jestem w Wielkiej Brytanii, jeśli to ważne). Może to być czynnik, jeśli masz napięty budżet, ale gdy próbujesz uzyskać rozsądne oszczędności w kilku miejscach, a wybór dysku jest tylko jednym z nich. Chciałbym usłyszeć, co myślisz o tym pytaniu również z czysto technicznego punktu widzenia.
dbr
Z technicznego punktu widzenia dysk 2,5 "7200 obr./min nie ma żadnych zalet. Jeśli koszty wydają się zbyt duże, kupuj dalej. Na tym rynku jest niewielka różnica. Jeśli jest to dysk rozruchowy, SSD jest dobrą alternatywą. Ale ja nie mogę wymyślić żadnego powodu, dla którego używałbym dzisiaj dysku HP 7200 2,5 "na serwerze. Przeczytaj także uważnie informacje HP na temat szybkich specyfikacji. Napęd na linię środkową ma krótsze gwarancje.
ewwhite
1
Ogólnie odpowiedź jest świetna. Ale jak w przypadku wszystkiego innego, „to zależy”. W przykładzie dysku o pojemności 900 GB 10 KB w porównaniu do 1 TB 7200, dysk 1 TB będzie działał chłodniej, a zatem być może będzie trwał dłużej i będzie tańszy. Jeśli nie potrzebujesz dodatkowej wydajności, oznacza to stratę pieniędzy, zarówno pierwotnego kosztu kapitału, jak i operacji. Dla jednego serwera nie ma to większego znaczenia. Dla 10 zaczyna się sumować.
Dan Pritts,
2
Naprawdę dysk, który działa wolniej, będzie trwał dłużej? Czy brakuje mi jakiegoś artykułu?
vasin1987
2
Z perspektywy dostawcy / producenta tak. Są kierownicy do 10k i SSD 2,5" . Jeśli były biało-boxing, przejdź 7200 RPM. W rzeczywistości, mój ZFS sprzedawca przechowywanie, PogoStorage , wykorzystywanie 7200 RPM 2.5" dla swoich ZFS tablice ponieważ buforowanie i SSD podział na warstwy wyeliminować trzeba określić szybsze dyski.
ewwhite
5

Istnieje co najmniej kilka rzeczy, które mogą powodować problemy z NIEKTÓRYMI rodzajami dysków:

  • Dyski, które nie są przeznaczone do radzenia sobie z obciążeniem wibracyjnym obudowy mającej wiele dysków (mało prawdopodobny problem z dyskami określonymi jako obsługujące RAID / NAS)

  • Oprogramowanie układowe, które nie zezwala na TLER lub wymaga czasochłonnej ręcznej rekonfiguracji dysku, aby go włączyć (to samo)

  • Dyski, które nigdy nie były testowane z używanym kontrolerem RAID i mogły mieć nierozpoznane błędy, które pojawiają się w takiej konfiguracji

  • Wewnętrzne pamięci podręczne zapisu, które zachowują się w pewien sposób (zapis fizyczny jest niesprawny lub bardzo opóźniony), co powoduje wiele nieporozumień w przypadku twardego wyłączenia (kontroler RAID powinien być skonfigurowany w celu wymuszenia ich WYŁĄCZENIA. Potencjalny problem, jeśli oprogramowanie układowe kiedykolwiek zignoruje to. Zobacz nieprzetestowane dyski :)

  • Dysk może czasami wykonywać wewnętrzne czynności konserwacyjne, które mogą powodować, że dysk zachowuje się wolno lub reaguje z wystarczającym opóźnieniem, aby kontroler RAID uznał, że nie działa (związany z TLER)

  • Ogólnie rzecz biorąc, SATA, ponieważ jest zwykle implementowana, ma mniej zabezpieczeń w porównaniu do SAS przed dyskiem z całkowicie wystrzeloną lub zawieszoną elektroniką zawieszającą wszystko na kontrolerze (nie ryzyko teoretyczne, niektóre kombinacje marek dysków + kontrolerów uwielbiają ten tryb awarii).

rackandboneman
źródło
1
Wydaje się, że są to powody, dla których warto stosować dyski kwalifikowane do sprzętu i stosu serwera, ale nie w szczególności o 10k vs 7k2 rpm.
poolie
1
Pytanie można łatwo (błędnie?) Zrozumieć: „czy w aplikacji można użyć dysku innego niż korporacyjny o rozmiarze 7,2 tys. Lub dysku przeznaczonego do użytku na jednym dysku w przedsiębiorstwie?”. A „bezpiecznie” zwykle oznacza ograniczenie ryzyka utraty danych lub przestojów związanych z awariami.
rackandboneman
4

OGROMNY problem:

(Może to być trochę nie na temat - ale to ważne! )

Kiedy masz do czynienia z dyskami SSD - (jak to często bywa, może to być przypadek lub pokusa) - wiele dysków SSD ma paskudny problem, w którym nie zawsze można je odzyskać po spontanicznych przerwach w zasilaniu!

To mały problem z dyskami twardymi. Dyski HDD zwykle mają wystarczającą pojemność do zasilania ich logiki i wystarczający moment pędu do przeniesienia talerzy przez dokończenie zapisu 512-bajtowego bloku - w przypadku utraty zasilania w trakcie zapisu. Raz na jakiś rzadki czas, będzie to nie praca, powodując coś nazywa się „rozdarty pisać” - gdzie pojedynczy blok może być częściowo napisane. Częściowy zapis (albiet rzadko) spowoduje błąd sumy kontrolnej w bloku - tzn., Że pojedynczy blok będzie zły. Zwykle może to zostać wykryte jako złe przez sam zespół dysków i skorygowane przez kontroler RAID powyżej.

Dyski SSD to inne zwierzę. Zwykle implementują coś, co nazywa się „poziomowaniem zużycia” - gdzie nie zapisują po prostu „bloku X” do fizycznej lokalizacji „bloku X”, jak robi to dysk twardy. Zamiast tego próbują pisać w różnych miejscach na nośniku flash - i próbują agregować lub łączyć zapisy (używając trochę buforowania). Pisanie do różnych miejsc obejmuje prowadzenie „mapy” miejsca, w którym są zapisywane, która jest również buforowana i zapisywana w sposób zmniejszający poziom zużycia. Część wyrównywania zużycia może nawet obejmować przenoszenie danych, które są już na urządzeniu, a nawet nie zostały ostatnio zapisane.

Problem polega na tym, że gdy dysk SSD traci moc - ma dużo danych w pamięci (bez dodatku), ma pewne dane, które zostały zapisane w różnych / zmienionych lokalizacjach - i ma te mapy we własnej pamięci, które muszą być wypłukane, aby zrozumieć strukturę wszystkich danych w urządzeniu.

WIELE WIELKICH DYSKÓW SSD nie ma logiki ani zespołu obwodów elektrycznych, aby móc utrzymywać kontrolery w dobrym stanie i żyć wystarczająco długo przy spontanicznym wyłączaniu zasilania, aby bezpiecznie przepłukać wszystkie te dane, aby flashować przed śmiercią. Nie oznacza to tylko, że jeden napisany blok może być teraz w toku - ale inne bloki - nawet wszystkie bloki na urządzeniu mogą mieć kłopoty. Wiele urządzeń ma również problemy, w wyniku których nie tylko tracą wszystkie dane na urządzeniu, ale samo urządzenie staje się wadliwe i nie nadaje się do użytku.

To jest cała prawdziwa teoria - ale (pracując w branży pamięci masowej) - widziałem to zbyt wiele razy na zbyt wielu urządzeniach - w tym w niektórych naszych osobistych laptopach!

Wielu dostawców dyskutowało o tworzeniu „dysków SSD klasy korporacyjnej”, w których konkretnie dodają urządzenia („super-cap”) i inne układy, aby umożliwić czyste „opróżnianie” - ale bardzo trudno jest znaleźć jakiekolwiek urządzenie, które wyraźnie stanowi jego część arkusz danych, że ma wystarczającą, wyraźną, przetestowaną ochronę przed takimi zdarzeniami i będzie chronić przed takimi zdarzeniami.

Oczywiście, jeśli kupisz „wysokiej klasy macierz pamięci” od wiodącego dostawcy, który korzystał z technologii flash, albo ich dyski, albo cały system został zaprojektowany z myślą o tym wszystkim. Upewnij się, że tak!

Problem w odniesieniu do twojego pytania jest następujący: jeśli masz macierz RAID - a kilka dysków to „złe” dyski SSD bez tej ochrony - jeśli dostaniesz „spontaniczny zanik zasilania” - możesz stracić WSZYSTKIE dane na WIELU dyskach uniemożliwiając rekonstrukcję RAID.

„Ale używam UPS”

Zasadniczo należy również pamiętać, że „spontaniczne przerwy w zasilaniu” mogą obejmować sytuacje takie jak BSOD i blokady / awarie jądra / awarie - w których nie ma możliwości odzyskania przez wyciągnięcie wtyczki z systemu.

Ćwiek
źródło
2
Rzadko zdarza się, że ktoś wyciąga wtyczkę z zawieszonego systemu (chyba, że ​​niszczy dysk) wystarczająco szybko, aby nie pozwolić żadnym dyskom na opróżnienie pamięci podręcznej. W takim przypadku konwencjonalne dyski twarde z włączonymi pamięciami podręcznymi mogą wywoływać ten sam bałagan, choć z mniejszą szansą na uszkodzenie, ale nadal ze znaczną szansą na uszkodzenie danych - Reiserfs, wczesny NTFS, mieli tendencję do tego, ponieważ obsłużyli dane dziennika napisane dla działania, które tak naprawdę się nie wydarzyło (lub odwrotnie, oba prawdopodobnie z opróżnieniem pamięci podręcznej poza kolejnością) BARDZO źle.
rackandboneman,
2
Prawidłowo zaprojektowany dysk SSD nie spowoduje uszkodzenia ani utraty danych w przypadku, gdy dane nie zostaną całkowicie usunięte. Ponieważ fizyczne położenie każdego sektora logicznego może się zmieniać przy każdym zapisie, poprzednia wersja danych w każdym sektorze logicznym powinna nadal istnieć w przypadku, gdy aktualizacja nie została jeszcze usunięta. Nadal możesz stracić dane, jeśli oprogramowanie układowe ma wady projektowe lub błędy implementacyjne.
kasperd
1
@Kasperd konsumenckie dyski SSD są sprzedawane na zasadzie szybkości, robią to kompromisy. Chociaż powinno być możliwe zachowanie integralności zgodnie z twoimi sugestiami, faktem jest, że większość producentów dysków (przynajmniej na poziomie konsumenta) po prostu tego nie robi. Również po osiągnięciu poziomu EoL większość nie zawodzi z gracją.
JamesRyan
@JamesRyan Historie o oszustwach producentów z opróżnianiem danych do trwałej pamięci masowej w celu uzyskania lepszych wyników w niektórych wskaźnikach wydajności nie są nowe. Słyszeliśmy o tym również w czasach dysków twardych. Nie dlatego, że tego właśnie chcą konsumenci. Jest tak, ponieważ konsumenci widzą tylko niektóre dane i nie wiedzą, w jaki sposób producent oszukuje w innych obszarach, aby to osiągnąć. Czasem producenci oszukują, a czasem nie. (Jestem pewien, że ktoś mógłby wymyślić analogię samochodu inspirowaną najnowszymi wiadomościami.)
kasperd
2
Dyski SSD to inne zwierzę. Mają tabele map, w których podano GDZIE dane. Przenoszą i przenoszą dane oraz dostosowują te mapy. POTRZEBUJĄ łączyć swoje zapisy (tj. Odraczać, wiązać je i pisać później), aby uniknąć wzmocnienia zapisu. Same mapy nie mogą być napisane agresywnie i muszą przestrzegać tych samych zasad. Możemy mówić o „odpowiednich projektach” i wadach - ale dyski SSD nie są „proste” jak kronikowane systemy plików (które nie są proste). Mówię na podstawie dużego doświadczenia, testów, specyfikacji i mogłem rozmawiać z producentem - lub dwoma - lub trzema w mojej pracy.
Brad