Czy nadal potrzebuję kopii zapasowej, jeśli mam system pamięci redudant z funkcją przywracania?

32

Moja organizacja niedawno kupiła system pamięci masowej. Ma 1,5Petabajta z RAID6, a lustro synchronizowane online znajduje się w innej fizycznej lokalizacji.

System umożliwia przywracanie / odzyskiwanie plików, domyślnie pozwala to na maksymalnie 30 dni, ale można to zwiększyć.

Trwa dyskusja, czy potrzebujemy dodatkowej kopii zapasowej dla danych żyjących tylko w magazynie.

System ma bardzo dobry poziom nadmiarowości, ma nadmiarowość geograficzną i umożliwia do pewnego stopnia wycofanie, co oznacza, że ​​możemy odzyskać do określonego czasu (domyślnie 30 dni) starych danych lub przypadkowo usuniętych danych.

Biorąc pod uwagę ten scenariusz, czy nadal ma sens posiadanie „tradycyjnej” kopii zapasowej? Przez tradycyjny rozumiem dedykowany system tworzenia kopii zapasowych z migawkami, które możemy odzyskać na wypadek, gdyby coś poszło nie tak.

Czy naprawdę tego potrzebujemy? Czy coś brakuje? Czy po prostu myślę w tradycyjny sposób i jestem zbyt gorliwy?

nsn
źródło
Jeśli pozwala także na replikację migawek na inne urządzenie, możesz przezwyciężyć problemy, które Sven wspomina w swojej odpowiedzi.
Drifter104,
4
Zdecydowanie spokrewnione, ale być może nie duplikat ze względu na separację geograficzną i możliwość wycofywania migawek: Dlaczego RAID nie jest kopią zapasową?
CVn
Dopóki usuniesz również klawisz „usuń” z każdej klawiatury w tym miejscu, jesteś złoty ;-)
Tom Newton
1
Z pewnością lepiej niż tego nie mieć. Nadal wolałbym, aby kopie zapasowe były przechowywane na nośniku z dala od „pomyłek” na żywo. Nadal znasz odpowiedź na swoje pytanie, ale wiąże się to z ustaleniem ceny na dane. Powodzenia.
Tom Newton,
7
Czy Twoja funkcja „wycofywania” obejmuje także zmiany woluminów? Na przykład, czy będzie w stanie odzyskać, jeśli ktoś usunie wszystkie woluminy?
vhu,

Odpowiedzi:

40

To, co opisujesz, ma zasadnicze znaczenie dla geograficznie rozproszonej macierzy RAID, a macierz RAID nigdy nie była kopią zapasową .

Synchronizacja online zazwyczaj oznacza, że ​​wszystko, co robisz w podstawowej pamięci, jest natychmiast replikowane do systemu kopii zapasowych, w tym operacje takie jak usuwanie (wszystkich) migawek i / lub woluminów przez osobę atakującą lub po prostu błąd administratora.

Sven
źródło
3
Lub, ponieważ oba magazyny prawdopodobnie korzystają z tego samego systemu operacyjnego, błąd oprogramowania może zniszczyć dane. To mało prawdopodobne, błąd administratora jest bardziej prawdopodobny, ale możliwy.
Sunzi,
8
Prawdziwe. Celem jest, aby nikt nie był w stanie zarządzać automatycznymi migawkami. To powinno dać poziom odporności na błędy. Oczywiście można również przez pomyłkę usunąć kopię zapasową.
nsn
2
@nsn istnieje wiele innych skorelowanych awarii, takich jak błędy w oprogramowaniu urządzenia lub błędy w skryptach zarządzania. Bez kopii zapasowej gdzie indziej powierzasz swoje zadanie dostawcy ... Czy chcesz to zrobić? Oblicz także szkody w przypadku utraty. Być może odpowiedź zależy od tego, jak cenne są dane. Czy firma zniknie bez niego?
usr
2
@ nsn > Oczywiście można również przez pomyłkę usunąć kopię zapasową. < - tak, ale staje się znacznie trudniejsze, gdy kopia zapasowa zostanie przełączona w tryb offline i na przykład umieszczona w bezpiecznej pamięci zewnętrznej.
Rob Moir,
7

30-dniowe wycofywanie jest świetną możliwością, ale co, jeśli „krytycznie ważny plik-xyz” zostanie uszkodzony / uszkodzony i nie zostanie to wykryte ponad 31 dni później? Ta sytuacja stanowi różnicę między harmonogramami tworzenia kopii zapasowych i archiwizacji, ale w twoim opisie nie wspomniano o tym drugim. Systemy archiwalne są zwykle przechowywane na bardzo tanich taśmach. Nie są również dostępne żadne informacje na temat tego, czy firma ma wymogi prawne lub inne wymagania dotyczące przechowywania danych przez okres dłuższy niż 30 dni, co często ma miejsce.

Jeśli tak nie jest w twojej sytuacji, powinieneś być dobry.

Victor Marquez
źródło
3
Tak, prawda. 30 jest tylko domyślną wartością, którą możemy ustawić. W każdym razie przechowywanie w trybie offline również kosztuje i nie trwa wiecznie. Zawsze będzie dzień n + 1
nsn
2
Lubię mieć 30 dni, a także co miesiąc przez ostatni rok, a także co roku. Miałem wiele plików (które były ważne i stare) znikają i nie można ich wykryć w okresie kroczącym. Coroczne kopie zapasowe mogą uratować życie.
Brian Knoblauch,
@BrianKnoblauch: Tak, ten rodzaj schematu jest dobrym pomysłem, zarówno w przypadku migawek online, jak i kopii zapasowych offline.
Ben Voigt,
6

Dobrze jest mieć maszyny oddzielone geograficznie, posiadające dane.

Co się stanie, gdy wystąpi wiele awarii obejmujących obie lub wszystkie witryny? Pożar w jednym, kradzież serwerów w drugim? Czy jest problem z linią między nimi, a następnie serwer głównej lokalizacji gaśnie, a kontroler HD staje się małpą i pisze śmieci? A może jakiś informator wykonuje złośliwe działania w obu przypadkach? Lub FBI konfiskuje twoje serwery w obu lokalizacjach z powodu podejrzenia (nigdy byś nie zrobił, ale być może jesteś współ hostowany w centrum danych z Schmucks). Lub .. Przypomina mi się kilka głośnych awarii „chmury”, w których wszystko było zbędne, analizowane w stopniu n-tym, ale mimo wszystko wszystko może pójść nie tak. Przyznaję, że wszystkie są mało prawdopodobne, ale przyznałeś, że mogą się zdarzyć rzeczy mało prawdopodobne.

Wszystko sprowadza się do tego, jak ważne / cenne są te dane? Co zrobi organizacja, jeśli jej nie będzie?

David J. Davison
źródło
3
Jeśli masz dwie lokalizacje i stracisz obie, prawdopodobnie straciłeś także kopie zapasowe. Większość tej odpowiedzi jest argumentem do replikacji w więcej niż dwóch witrynach, a nie argumentem na rzecz tworzenia kopii zapasowych.
Ben,
2
To trwa wiecznie. Za każdym razem, gdy dodajesz poziom nadmiarowości, zawsze możesz oczekiwać, że się nie powiedzie (albo geograficznie, albo tylko dyski). Jeśli masz n nadmiarowych dysków, zawsze możesz zapytać „co, jeśli n + 1 się zepsuje”. Możesz mieć pożar w swojej serwerowni, a także w pokoju zapasowym. Zadania wewnętrzne mogą również atakować oba. Nie ma w 100% bezpiecznych systemów. Chodzi o to, aby wiedzieć, czy taka konfiguracja może być równoważna z „tradycyjnym” serwerem + kopią zapasową
nsn
1
Myślę, że @nsn ma świetny punkt, ale sądzę również, że lekcja z wielu z tych odpowiedzi jest taka, że ​​posiadanie kopii zapasowej na oddzielnej infrastrukturze technologicznej niż na nośnikach pamięci jest dobrym pomysłem, ponieważ znacznie utrudnia technologiczne brak rozprzestrzeniania się, a trudniej zainfekować aktora do zarażenia obu (ale tylko trudniej). Regularnie obserwujemy błędy w redundantnych systemach, które powodują kaskady awarii. Pomocne jest zaangażowanie innego rozwiązania / dostawcy. Zabezpieczenia wciąż trwają, ale uważam, że ten poziom separacji technologicznej jest w większości przypadków rozsądną ostrożnością.
Nick
@Nick, myślę, że masz bardzo ważny komentarz. Uczyniłbym to odpowiedzią.
nsn
4

Wydaje się, że pytanie dotyczy tego, jak rozłączna i geograficznie odrębna musi być replikowana kopia danych, zanim będzie to kopia zapasowa, a nie infrastruktura wysokiej dostępności / redundancji. Mam przeczucie, że jesteś blisko, ale nadal potrzebujesz kopii zapasowej.

Aby zebrać kilka myśli w innych odpowiedziach i komentarzach, możesz pójść naprawdę daleko na ścieżkę „cóż, technologia X nie obejmuje scenariusza katastrofy Y, więc nie jest to kopia zapasowa”, aw pewnym momencie musisz zdecydować, co jest dla ciebie rozsądne, i wydaje się, że właśnie dlatego pytasz. Myślę o tym i myślę, że wielu komentujących uważa, że ​​twoja kopia zapasowa musi istnieć w oddzielnej infrastrukturze technologicznej od danych w użyciu, aby awarie, wypadki i złośliwe działania nie mogły się rozprzestrzeniać lub mieć o wiele trudniejsza do pokonania. Przykładem podanym w komentarzach jest ktoś, kto usuwa woluminy, co jest moim zdaniem poprawnym scenariuszem, który nie jest pietyzmem. Ale dodatkowo prawdziwy przykład z mojej pracy. Uniwersytet, dla którego pracuję (ale na szczęście nie t tej infrastruktury) ma poważną infrastrukturę wirtualizacji o wysokiej dostępności, która obsługuje wiele obiektów kampusu. Jest w wielu witrynach, ale wszystkie działają na platformie jednego dostawcy. Pewnego dnia pojawił się niejasny błąd, który spowodował kaskadę awarii, która najpierw zniszczyła pojedynczy serwer, a następnie, gdy obciążenie się zmieniło, usunęła resztę tej witryny, a następnie, gdy obciążenie się zmieniło, usunęła inne witryny hostujące ta infrastruktura. (Myślę, że od tego czasu rozwiązali ten problem). W tym przypadku dane nie zostały utracone, ale można sobie wyobrazić scenariusz z danymi na miejscu. Pewnego dnia pojawił się niejasny błąd, który spowodował kaskadę awarii, która najpierw zniszczyła pojedynczy serwer, a następnie, gdy obciążenie się zmieniło, usunęła resztę tej witryny, a następnie, gdy obciążenie się zmieniło, usunęła inne witryny hostujące ta infrastruktura. (Myślę, że od tego czasu rozwiązali ten problem). W tym przypadku dane nie zostały utracone, ale można sobie wyobrazić scenariusz z danymi na miejscu. Pewnego dnia pojawił się niejasny błąd, który spowodował kaskadę awarii, która najpierw zniszczyła pojedynczy serwer, a następnie, gdy obciążenie się zmieniło, usunęła resztę tej witryny, a następnie, gdy obciążenie się zmieniło, usunęła inne witryny hostujące ta infrastruktura. (Myślę, że od tego czasu rozwiązali ten problem). W tym przypadku dane nie zostały utracone, ale można sobie wyobrazić scenariusz z danymi na miejscu.

Chcesz, aby twoja kopia zapasowa była na to odporna, a nawet dostępna, gdy infrastruktura jest wyłączona. Jeśli dane są niedostępne przez tydzień, podczas gdy twoja macierz RAID się odbudowuje, przyjemne jest odzyskiwanie krytycznych dokumentów biznesowych z kopii zapasowej (choć nie jest to wymagane). Jeśli macierz RAID zniknie, a następnie powiela się na innej stronie, naprawdę chcesz, aby kopia zapasowa pochodziła od innego dostawcy lub na niektórych izolowanych nośnikach, takich jak taśma.

To powiedziawszy, jeszcze raz powtórzę, że twoja kopia zapasowa powinna znajdować się w innej infrastrukturze niż twoje dane. Istnieje tutaj wiele poziomów izolacji, ale myślę, że wszystko, co jest połączone przez bezpośrednią replikację, jest zbyt blisko, aby mogło być kopią zapasową. Będziesz chciał coś dodatkowo.

Nacięcie
źródło
1

Założenie: system pamięci będzie używany przez wiele aplikacji.

Uważam, że poradzisz sobie znacznie lepiej dzięki osobnemu systemowi kopii zapasowych.

RAID i kopie lustrzane nie są kopiami zapasowymi, ale wbudowana funkcja wycofywania może zastąpić tradycyjny system tworzenia kopii zapasowych.

ALE:

Wolę zasady odzyskiwania niż aplikacje / dane, a nie pamięć, ponieważ:

  1. aplikacje mają różne wymagania związane z odzyskiwaniem i dopuszczalną utratą danych (niektóre z nich narzucają różne przepisy: nośniki tylko do odczytu, szyfrowanie, przechowywanie ostatnich X lat itp.),
  2. niektóre aplikacje mają wbudowane (bardzo) dobre narzędzia do tworzenia kopii zapasowych i odzyskiwania danych (Oracle, mssql) i są zalecanym sposobem wykonywania części tworzenia kopii zapasowych / odzyskiwania danych (wolę Oracle DBA i zrobię wszystkie moje kopie zapasowe związane z Oracle za pomocą rmana).
  3. wzrost, wykorzystanie przestrzeni może wzrosnąć znacznie szybciej, niż się spodziewasz, teraz ten system może pomieścić 30 dni przywracania danych, nie jest to zagwarantowane w przyszłości
  4. tańszy, koszt korzystania z większych taśm w celu dostosowania się do zasad tworzenia kopii zapasowych / odzyskiwania, po kilku latach wzrostu, będzie mniejszy niż koszt zakupu nowych, większych dysków, aby zachować to samo okno wycofywania, co teraz
walentyna
źródło