Czy bezpiecznie jest używać konsumenckich dysków SSD MLC na serwerze?

44

My (i mam na myśli Jeffa) zastanawiamy się nad możliwością użycia dysków SSD Consumer MLC w naszym zapasowym centrum danych.

Chcemy obniżyć koszty i zwiększyć powierzchnię użytkową - dlatego Intel X25-E ma prawie 700 USD i 64 GB pojemności.

Chcemy kupić niektóre dyski SSD z niższej półki, które oferują większą pojemność w niższej cenie. Mój szef nie uważa, że ​​warto zainwestować około 5 tys. W dyski na serwerach, na których brakuje zapasowego centrum danych.

Te dyski byłyby używane w macierzy RAID z 6 dyskami w Lenovo RD120. Kontroler RAID to Adaptec 8k (rebranded Lenovo).

Jak niebezpieczne jest to podejście i co można zrobić, aby złagodzić te niebezpieczeństwa?

Zypher
źródło
4
Jakie jest uzasadnienie używania SSD zamiast spinnerów? Mądrość ludowa na temat wydajności dysków SSD brzmi: „zapłać lub nie przejmuj się”, ale z pewnością istnieją inne aspekty, które mogą być zaletą.
peterchen
Jestem ciekawy problemu, który tutaj próbujesz rozwiązać. Jeśli jest to po prostu jeden z kosztów, dlaczego dyski SSD są rozważane zamiast konwencjonalnych dysków?
John Gardeniers
@peterchen, możesz użyć kilku dysków SSD lub pięćdziesięciu wrzecion 15K.
Mircea Chirea
@iconiK - masz na myśli „jak na serwer, i tak musisz wydać dużo pieniędzy”? Jeśli tak - tak, też się zastanawiałem.
peterchen

Odpowiedzi:

61

Kilka myśli;

  • Dyski SSD mają pamięć „nadpisywaną”. Jest to pamięć używana zamiast komórek „uszkodzonych” przez pisanie. Dyski SSD klasy niskiej mogą mieć tylko 7% nadmiernej ilości miejsca; średni zakres około 28%; a dyski korporacyjne aż 400%. Rozważ ten czynnik.
  • Ile będziesz do nich pisać dziennie? Nawet dyski SSD średniej klasy, takie jak dyski oparte na 1200 układach Sandforce, rzadko doceniają więcej niż około 35 GB zapisów dziennie, zanim poważnie zajmą zbyt dużą pamięć.
  • Zwykle pierwszy dzień nowego dysku SSD jest pełen zapisu, niezależnie od tego, czy jest to system operacyjny, czy dane. Jeśli pierwszego dnia masz znacznie więcej niż> 35 GB zapisów, rozważ skopiowanie ich w partiach, aby zapewnić dyskowi SSD trochę czasu na uporządkowanie między partiami.
  • Bez obsługi TRIM wydajność losowego zapisu może spaść nawet o 75% w ciągu tygodni, jeśli w tym okresie jest dużo pisania - jeśli możesz, użyj systemu operacyjnego obsługującego TRIM
  • Wewnętrzne procesy wyrzucania elementów bezużytecznych, które wykonują nowoczesne dyski SSD, są bardzo specyficznie wykonywane w okresach ciszy i zatrzymuje się na aktywności. Nie stanowi to problemu w przypadku komputera stacjonarnego, w którym dysk może być cichy przez 60% normalnego 8-godzinnego cyklu pracy, ale prowadzisz usługę 24 godziny na dobę ... kiedy ten proces będzie miał szansę na uruchomienie?
  • Zwykle jest głęboko ukryty w specyfikacjach, ale podobnie jak tanie „zwykłe” dyski, oczekuje się, że niedrogie dyski SSD będą miały jedynie cykl pracy około 30%. Będziesz ich używał przez prawie 100% czasu - to wpłynie na twoją stawkę MTBF.
  • Chociaż dyski SSD nie mają takich samych problemów mechanicznych, jakie mają zwykłe dyski, występują w nich błędy jedno- i wielobitowe - więc zdecydowanie rozważ RAID, nawet jeśli instynkt tego nie robi. Oczywiście wpłynie to na całą tę cudowną prędkość losowego zapisu, którą właśnie kupiłeś, ale i tak to rozważ.
  • To wciąż SATA, a nie SAS, więc zarządzanie kolejkami nie będzie tak dobre w środowisku serwerowym, ale z drugiej strony dodatkowy wzrost wydajności będzie dość dramatyczny.

Powodzenia - po prostu nie „smaż” ich z napisami :)

Siekacz 3
źródło
2
Masz na myśli 400% na dodatkowe miejsce, czy 40%? Chciałem zredagować twoją odpowiedź, ale nie mogłem znaleźć cytatu, więc przypuszczam, że może to być 400%. (
Nawiasem mówiąc,
9
Nie zawsze jest również jasne, czy TRIM jest obsługiwany w konfiguracji RAID. Pamiętaj, że dyski SSD są oderwane od systemu operacyjnego za pomocą RAID. Koniecznie sprawdź u dostawcy RAID.
Matt Sherman,
5
Miałem na myśli 400 Chrisa, szczególnie tych używanych w sieciach SAN FC, ale bardzo, bardzo.
Chopper3
5
Jednym ze sposobów na uzyskanie większej rezerwy miejsca na dysku jest wykonanie bezpiecznego wymazywania, a następnie podzielenie go na partie z dużą niewykorzystaną częścią. Ta wolna przestrzeń zwiększy wydajność i żywotność dysku SSD.
Zan Lynx
1
Chcę tylko dać +1 za pomocą @ZanLynx .. Zwykle dzielę tylko około 80% dysku, gdy używam SSD + Raid.
Tracker1
12

Znalazłem ten link, który zawiera ciekawą i dokładną analizę MLC w porównaniu do dysków SSD SLC na serwerach

Moim zdaniem użycie macierzy flash SSD MLC do aplikacji korporacyjnych bez użycia (deklarowanego) efektu łagodzenia zużycia technologii takiej jak MFT Easyco jest jak wyskakiwanie z samolotu bez spadochronu.

Zauważ, że niektórzy dostawcy dysków MLC SSD twierdzą, że ich dyski są wystarczająco „przedsiębiorcze”, aby przetrwać zapisy:

SandForce chce być pierwszą firmą z kontrolerem obsługującym wielopoziomowe układy pamięci flash dla dysków półprzewodnikowych używanych w serwerach. Dzięki zastosowaniu układów MLC, SF-1500 toruje drogę do obniżenia kosztów i zwiększenia gęstości napędów, jakich chcą producenci serwerów. Do tej pory dyski flash dla serwerów korzystały z jednopoziomowych układów pamięci flash. Wynika to z faktu, że wytrzymałość i niezawodność układów MLC zasadniczo nie spełniała wymagań serwerów.

Dalsza analiza tych roszczeń znajduje się w AnandTech .

Dodatkowo, teraz Intel odnotował, że SLC może być nadmiernie obciążone na serwerach w 90% przypadków :

„Uważaliśmy, że SLC [komórka jednopoziomowa] jest wymagana, ale odkryliśmy podczas badań z Microsoftem, a nawet Seagate, że te aplikacje wymagające dużej mocy obliczeniowej naprawdę nie piszą tak dużo, jak im się wydawało” - powiedział Winslow. „Dziewięćdziesiąt procent aplikacji centrum danych może korzystać z tego napędu MLC [wielopoziomowa komórka]”.

.. w ciągu ostatniego roku producenci zauważyli, że dzięki zastosowaniu specjalnego oprogramowania w kontrolerach napędów są w stanie zwiększyć niezawodność i odporność dysków SSD MLC klasy konsumenckiej do tego stopnia, że ​​przedsiębiorstwa przyjęły je wysokowydajne serwery centrów danych i macierze pamięci. Dostawcy SSD zaczęli używać terminu eMLC (Enterprise MLC) NAND flash, aby opisać te dyski SSD.

„Z perspektywy wolumenu widzimy, że istnieją środowiska obliczeniowe wymagające dużej szybkości zapisu i wysokiej wydajności, które mogą nadal wymagać SLC, ale jest to 10% najwyższych wymagań nawet w stosunku do centrum danych przedsiębiorstwa” - powiedział Winslow.

Intel zasila tę górną 10% rynku centrów danych przedsiębiorstwa poprzez spółkę joint venture z Hitachi Global Storage Technologies. Hitachi produkuje linię SSD400S Serial Attached SCSI SSD, która ma prędkość 6 Gb / s. przepustowość - dwa razy większa niż w przypadku dysków SSD SATA opartych na MLC.

Intel, nawet jeśli chodzi o dyski SSD zorientowane na serwer, przeprowadził migrację z SLC do MLC z bardzo dużą przestrzenią „nadmiarową” dzięki nowej serii Intel SSD 710 . Dyski te przydzielają do 20% całkowitej pamięci na nadmiarowość wewnętrznie:

Wydajność nie jest najwyższym priorytetem dla SSD 710. Zamiast tego Intel dąży do zapewnienia trwałości na poziomie SLC w rozsądnej cenie, używając tańszego eMLC HET NAND. Dysk SSD 710 obsługuje również konfigurowalne przez użytkownika nadwyżki (20%), co znacznie zwiększa wytrzymałość dysku. Gwarancja na dysk SSD 710 wynosi 3 lata lub do momentu, gdy wskaźnik zużycia osiągnie określony poziom, w zależności od tego, co nastąpi wcześniej. Po raz pierwszy widzieliśmy ograniczoną w ten sposób gwarancję SSD.

Jeff Atwood
źródło
7

Zawsze opieraj takie rzeczy na faktach, a nie na przypuszczeniach. W takim przypadku zbieranie faktów jest łatwe: rejestruj długoterminowe profile IOPS do odczytu / zapisu swoich systemów produkcyjnych, a następnie dowiedz się, z czym możesz żyć w scenariuszu odzyskiwania po awarii. Jako pomiaru powinieneś użyć czegoś takiego jak 99. percentyl. Czy nie używać średnie podczas pomiarów IOPS cpacity - szczyty są takie sprawy! Następnie musisz kupić wymaganą pojemność i IOPS w zależności od potrzeb witryny DR. Dyski SSD mogą być najlepszym sposobem na to, a może nie.

Na przykład, jeśli twoje aplikacje produkcyjne wymagają 7500 IOPS przy 99. percentylu, możesz zdecydować, że możesz żyć z 5000 IOPS w razie katastrofy. Ale to wymaga co najmniej 25 dysków 15K tam na twojej stronie DR, więc SSD może być lepszym wyborem, jeśli twoje potrzeby w zakresie pojemności są małe (brzmi jak są). Ale jeśli zmierzysz tylko, że wykonujesz 400 operacji IOPS w produkcji, po prostu kup 6 dysków SATA, zaoszczędź trochę monety i wykorzystaj dodatkową przestrzeń do przechowywania dodatkowych kopii zapasowych migawek w witrynie DR. Możesz również odczytywać odczyty i zapisy w swojej kolekcji danych, aby dowiedzieć się, jak długo wytrzymają dyski SSD dla przedsiębiorstw w oparciu o ich specyfikacje.

Pamiętaj również, że systemy DR mogą mieć mniejszą pamięć niż produkcyjną, co oznacza, że ​​potrzeba więcej IOPS (więcej wymiany i mniej pamięci podręcznej systemu plików).

rmalayter
źródło
5

Nawet jeśli dysk SSD MLS trwał tylko przez rok, za lata wymiana będzie znacznie tańsza. Czy możesz sobie poradzić z koniecznością wymiany dysku SSD MLS, gdy są poza domem?

Ian Ringrose
źródło
dobra uwaga, zwłaszcza, że ​​będą one w macierzy RAID .. dopóki „zbyt wielu” z nich nie zawiedzie od razu, jest to w rzeczywistości prawdopodobne.
Jeff Atwood
@Jeff, jeśli możesz wymieniać niektóre z komputerami stacjonarnymi, aby nie wszyscy mieli trochę patenu użytkowania, sprawi to, że będzie mniej lizanie, wszyscy zawiodą w tym samym czasie.
Ian Ringrose
@Jeff, myślę, że w dużym stopniu, Fail == „zacznij robić bardzo wolne prawa”, a nie „nie czytaj danych”
Ian Ringrose
nie lubisz autokorekty :-)
Jeroen Wiert Pluimers
3

Jeśli odłożymy na bok problem ilości zapisu (lub udowodnimy, że dyski SSD na poziomie konsumenta mogą sobie z tym poradzić), myślę, że dyski SSD warto dodać do środowisk na poziomie korporacyjnym. Prawdopodobnie będziesz używać dysków SSD w macierzy RAID. RAID5 lub RAID6. Problem polega na tym, że po awarii jednego dysku macierz staje się coraz bardziej podatna na awarię. Czas odbudowy zależy w dużej mierze od objętości tablicy. Przebudowa kilku macierzy TB może trwać kilka dni, przy ciągłym dostępie. W przypadku dysków SSD macierze RAID będą: a) nieuchronnie mniejsze, b) czas odbudowy skróci się drastycznie.

Vlad
źródło
3

Biała księga na temat różnic między SLC i MLC od SuperTalent stawia wytrzymałość MLC i dziesiątą wytrzymałość dysku SSD SLC, ale są szanse, że dyski MLS SSD przeżyją sprzęt, w który je włożysz. Nie jestem jednak pewien, jak wiarygodne są te statystyki / fakty z SuperTalent.

Zakładając, że otrzymujesz podobny poziom wsparcia od dostawcy dysków MLC SSD, niższy punkt cenowy sprawia, że ​​warto spróbować.

chunkyb2002
źródło
1
Wspomniano o 5-letnim okresie użytkowania typowego komputera. Jeśli jest to dokładny szacunek, nie przeżyją serwera w środowisku centrum danych!
JamesRyan
@JamesRyan: Chociaż nie jest to pokazane w większości obliczeń, żywotność jest bardzo zależna od ułamka wolnej przestrzeni.
Ben Voigt
1
W organizacjach, w których pracowałem, zawsze odświeżyliśmy sprzęt serwera o 3 lata. Miałem wrażenie, że ogólnie przyjęto najlepszą praktykę, ale popraw mnie, jeśli się mylę.
chunkyb2002
3

Powinieneś po prostu obliczyć liczbę codziennych zapisów, które masz przy bieżącej konfiguracji i porównać to z tym, co producent gwarantuje, że ich dyski SSD mogą wytrzymać. Intel wydaje się być najbardziej bezpośredni w tym zakresie - na przykład spójrz na ich główne arkusze danych napędu SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

Sekcja 3.5 (w szczególności 3.5.4) dokumentu specyfikacji mówi, że masz gwarancję, że Twój dysk będzie trwał co najmniej 5 lat z 20 GB zapisów dziennie. Zakładam, że jest to obliczane, gdy używasz całej pojemności dysku i nie zapewniasz wolnego miejsca na zapisywanie.

Interesujący jest również arkusz danych dotyczących korzystania z głównych dysków SSD w środowisku korporacyjnym.

cearny
źródło
Niestety, wcale nie jest to takie proste, ponieważ wyrównanie zużycia wzmacnia zapisy (pamiętaj, że ma on na celu rozprowadzanie zapisów, a nie redukowanie ich) w sposób zastrzeżony i który może się znacznie różnić pod względem skuteczności w zależności od wzorca użytkowania.
JamesRyan
Hm, bardzo dobry punkt. Utrata polecenia TRIM w przypadku korzystania z dysków w konfiguracji RAID powinna również zwiększyć wzmocnienie zapisu. Myślę, że wszystko sprowadza się do pomysłu każdego producenta na typowy wzór użytkowania.
cearny
2

Kilka lat temu wdrożyłem kilka dysków SLC o pojemności 32 GB, jako bufor dla jakiejś ohydnie źle zaprojektowanej aplikacji, z której korzystaliśmy.

Aplikacja miała 90% małych zapisów (<4k) i działała konsekwentnie (24/7) z prędkością 14k w / s raz na dyskach SSD. Zostały skonfigurowane RAID 1, wszystko było różowe, opóźnienia były niskie!

Jednak mniej więcej za miesiąc, a pierwszy dysk zapakowany, dosłownie w ciągu 3 godzin, drugi dysk również zmarł. W końcu RAID 1 nie jest tak dobrym planem :)

Zgodziłbym się z innymi plakatami na jakimś macierzy RAID 6, jeśli nic więcej nie rozłoży tych zapisów na więcej dysków.

Pamiętaj, że było to kilka lat temu, a te rzeczy są teraz o wiele bardziej niezawodne i możesz nie mieć podobnego profilu we / wy.

Aplikacja została przeprojektowana, jednak jako przestój, który może lub nie może pomóc, stworzyliśmy duży dysk RAM, stworzyliśmy skrypty do przebudowy / kopii zapasowej dysku RAM i zabieramy około godzinę straty danych czas regeneracji.

Ponownie, cykl życia twoich danych może być inny.

sysboy
źródło