Jak wykonać kopię zapasową 20 + TB danych?

86

W firmie, w której pracuję, mamy serwer NAS, który służy do przechowywania sesji fotograficznych. Każda sesja kosztuje około 100 GB. W ciągu ostatnich kilku lat ten serwer zgromadził ponad 10 TB danych, a wykładniczo zwiększamy liczbę sesji zdjęciowych. Szacuję, że do końca przyszłego roku na tym serwerze NAS będzie przechowywanych ponad 20 TB. Obecnie wykonujemy kopię zapasową tego serwera na taśmie przy użyciu taśm LTO-5 w programie Symantec BackupExec. Ponieważ rozmiar tego serwera urósł, pełne kopie zapasowe tego serwera nie kończą się z dnia na dzień. Czy ktoś ma jakieś sugestie, jak wykonać kopię zapasową tej ilości danych? Czy powinniśmy tworzyć kopię zapasową na taśmie? Czy są jakieś inne opcje, które mogą być lepsze?

Jesus Fidalgo
źródło
36
Dlaczego co wieczór wykonujesz pełne kopie zapasowe? Dlaczego nie uruchomić pełnej kopii zapasowej raz w tygodniu i nie wykonywać przyrostowych kopii zapasowych przez pozostałe 6 dni w tygodniu?
joeqwerty 12.12.12
9
Właśnie to robimy, przepraszam, nie wspomniałem, że ... pełny tydzień to ten, który się nie kończy.
Jesus Fidalgo,
6
Czy tygodniowe pełne zadanie musi zostać wypełnione z dnia na dzień? Nierzadko tygodniki zajmują więcej niż 24 godziny w przypadku wystarczająco dużego zestawu danych.
Stefan Lasiewski,
2
Jakiego rodzaju NAS używasz?
ewwhite
6
Czy na pewno wzrost sesji zdjęciowych jest wykładniczy ?
gerrit 12.12.12

Odpowiedzi:

114

Musisz cofnąć się o krok i przestać myśleć: „Mam 20 TB na moim serwerze NAS, muszę wykonać kopię zapasową!” i opracuj strategię przechowywania, która uwzględni charakter Twoich danych:

  • Skąd pochodzi i ile nowych danych otrzymujesz? (masz to w swoim pytaniu)
  • Jak wykorzystywane są dane, gdy już je masz? Czy ludzie edytują zdjęcia? Czy przechowujesz oryginały i generujesz edytowane wersje?
  • Jak długo trzeba przechowywać wszystkie dane? Czy ludzie wciąż wprowadzają zmiany do zdjęć sprzed 2 lat?

W zależności od odpowiedzi na dwa ostatnie pytania prawdopodobnie potrzebujesz więcej Systemu archiwizacji niż zupełnie innego systemu tworzenia kopii zapasowych.

Dane, które są statyczne (np. Zdjęcia 2-letnie, które zachowujesz „na wszelki wypadek”) nie muszą być tworzone co noc, a nawet co tydzień, muszą być archiwizowane. To, co faktycznie robisz, może być bardziej złożone, ale koncepcyjnie wszystkie stare zdjęcia można zapisać na taśmie (wiele kopii!) I nie można ich już tworzyć.

Na podstawie twoich komentarzy, kilka dodatkowych przemyśleń:

  • Ponieważ zachowujesz oryginały każdej sesji nietknięte i pracujesz nad kopią, i zakładając, że przynajmniej niektóre oryginalne zdjęcia są niewypałami, możesz być w stanie zmniejszyć ilość danych, których kopię zapasową potrzebujesz na pół.

  • Jeśli nadal nie możesz dokończyć pełnej kopii zapasowej w jakimkolwiek oknie czasowym, to powszechnym sposobem na przyspieszenie jest najpierw wykonanie kopii zapasowej z dysku na dysk, a następnie skopiowanie kopii zapasowej na taśmę.

Totem
źródło
1
Oryginalne zdjęcie jest przechowywane nietknięte, a następnie do edycji używana jest kolejna kopia sesji zdjęciowej. Dane mogą wymagać przechowywania przez około 2 lata.
Jesus Fidalgo,
20
+1 Dobrze powiedziane. Jestem zaskoczony, że różnica między Kopią zapasową a Archiwizacją jest ogólnie słabo zrozumiana. Robię pełne i przyrostowe kopie zapasowe moich danych systemowych i efemerycznych, takich jak e-mail i dokumenty, ale archiwizuję swoje zdjęcia (1,2 TB i coraz więcej :-). Żałuję, że nie mogę dać kolejnej +1 za sugestię między dyskami.
Ex Umbris,
8
+1 Założę się, że 80% danych na NAS nigdy nie jest wykorzystywane więcej niż raz.
Stefan Lasiewski,
+1 Najlepszą opcją jest wykonywanie codziennych, a nawet cogodzinnych transferów między dyskami w celu przechwytywania zmian, a następnie wysyłanie pełnych lub przyrostowych kopii zapasowych do archiwum lub dostawcy / lokalizacji poza siedzibą co tydzień lub co tydzień. Zwykle wykonywaliśmy kopie zapasowe plików delta naszych plików SQL co 15 minut, aby zmniejszyć utratę danych w scenariuszu odzyskiwania po awarii.
Brent Pabst,
12

Masz dwie opcje:

Opcja 1:

  1. Kup inny NAS
  2. Daj swoim użytkownikom RO dostęp do new_NAS
  3. Przenieś wszystkie pliki starsze niż 2 lata do new_NAS
  4. Twórz kopie zapasowe old_NAS jak zwykle
  5. Co 6 miesięcy przenieś pliki starsze niż 2 lata do new_NAS

Opcja 2:

  1. Kup inny NAS
  2. Uruchom rsyncco godzinę: old_NAS -> new_NAS

    lub lepiej użyć czegoś takiego jak rdiff-backup, który robi rsync + utrzymuje delty ze zmianami plików (możesz przywrócić starsze wersje plików)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Co 6 miesięcy czyść stare pliki, uruchamiając coś takiego:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    
strumień
źródło
2

Dlaczego kopie zapasowe muszą zostać wykonane z dnia na dzień? Wydajność serwera plików? Być może będziesz w stanie ograniczyć przepustowość oprogramowania do tworzenia kopii zapasowych, aby ograniczyć wpływ w ciągu dnia. Lub poświęć interfejs na swoim NAS, aby rozmawiać z napędem taśmowym, aby ograniczyć wpływ na inny ruch.

Czy potrafisz wykonywać pełne zrzuty w weekendy i robić przyrosty tylko w ciągu tygodnia? Jeśli problemem jest zmiana taśm w weekend, kiedy nikogo nie ma w pobliżu, tania biblioteka / automatyczny zmieniacz taśm kosztuje znacznie mniej niż płacenie komuś za zmianę taśm.

Czy możesz podzielić swoje dane na wiele grup, które są wystarczająco małe, aby wypełnić je w oknie kopii zapasowej?

Mamy około 50 TB danych na naszym serwerze NAS i pełny zrzut całego urządzenia za pomocą 2 napędów taśmowych zajmuje tydzień (jeden wolumin zajmuje prawie tydzień, ponieważ zawiera wiele małych plików). To, co robimy, to replikacja naszych danych na drugi serwer NAS. Nasz drugi serwer NAS znajduje się na miejscu (ale w innym centrum danych niż podstawowy), więc nadal buforujemy dane na taśmę w celu tworzenia kopii zapasowych poza miejscem. Wykonujemy kopie zapasowe z tego drugiego serwera NAS, aby kopie zapasowe nikogo nie spowalniały.

Jeśli umieścisz drugi serwer NAS wystarczająco daleko, to może to być twoja kopia zapasowa, nie potrzebujesz taśm.

Jasio
źródło
1

Mam tylko wątpliwości co do wielkości każdej sesji zdjęciowej, czy to naprawdę 100 GB / sesję? Ile sesji wykonuje Twoja firma każdego miesiąca?

Ponieważ przechowujesz głównie stare sesje, które nie będą często używane itp., I prawdopodobnie nie musisz często odzyskiwać tych informacji, sugeruję skorzystanie z usług innej firmy, aby zająć się tym zadaniem. .

Na przykład przechowywanie tych 20 TB za pomocą usługi online, takiej jak Amazon Glacier, kosztowałoby nieco ponad 200 USD miesięcznie. Jeśli musisz często pobierać te archiwa lub nawet odzyskać je w całości, uderzyłoby to w ograniczenia czasowe / kosztowe. Jeśli po prostu przechowujesz te rzeczy „dla pewności, że są one przechowywane”, być może użycie trzeciej części może ułatwić Ci życie (a nawet tańsze niż zakup innego NAS, taśm itp.)

woliveirajr
źródło
1
100 GB na sesję brzmi dla mnie trochę za wysoko, ale nie jest nieuzasadnione. Zwykle mieliśmy sesję 32+ GB, w której pracowałem, a nasz sprzęt był średniego poziomu.
Tom Marthenal,
1

full backups of this server are not completing overnight
Następnie spróbuj wykonać przyrostowe kopie zapasowe? Jedna pełna kopia zapasowa co xx dni, reszta przyrostowa.

Dyski twarde są niedrogie, szybsze niż taśmy i można ich używać do tworzenia kopii zapasowych.

Istnieją również dobre alternatywy dla kopii zapasowych w chmurze, więc nie jest konieczne dodawanie kolejnych i szybszych taśm.
Na przykład:

Tedd Hansen
źródło
Spójrz na komentarze - to nie są cotygodniowe zapełnienia. Dodatkowo, kopie zapasowe w chmurze dla 20 TB danych ... to nie jest dobry pomysł. „Tania” opcja Amazon Glacier będzie kosztować ~ 2500 rocznie, a odzyskanie wszystkich tych danych będzie kosztować ~ 36 000 $.
HopelessN00b
To naprawdę nie jest dużo.
Sirex,
1
Myślę, że to kwestia opinii, jeśli 2400 USD rocznie to dużo za 20 TB relatywnie bezpiecznego i całkowicie bezobsługowego przechowywania. Bez zużycia energii, bez chłodzenia, bez wadliwego sprzętu, bez umowy SLA, nie zajmuje miejsca w szafie. Podobnie jak w przypadku większości systemów, należy spodziewać się około 0 operacji pełnego odzyskiwania. A jeśli potrzebujesz odzysku, cena jest bardziej jak 1800 USD niż 36000 USD (nie jestem pewien, skąd masz ten numer).
Tedd Hansen
W przypadku lodowca 36 000 $ jest dość blisko. Z grubsza liczę to na 42 tys. USD za koszty pobierania na 20 TB. Jednak nadal nie jest dużo. Przepustowość stanowi większy problem.
Sirex,
1

Myślę, że najlepszym rozwiązaniem jest to, co robimy z naszymi danymi płacowymi, co powinno wymagać minimalnego wysiłku, aby je wdrożyć.

  • Początkowo jest przechowywany z resztą danych serwera, które są codziennie archiwizowane. Nasz okres przechowywania tych kopii zapasowych wynosi 13 miesięcy.

  • Kiedy już nie spodziewamy się, że dane będą musiały zostać zmodyfikowane (dwa okresy płatności później, IIRC), dane są zapisywane (za pomocą skryptu) do woluminu archiwalnego, który jest wykluczony z regularnych kopii zapasowych.

  • Kopia zapasowa woluminu archiwizowanego jest corocznie, a taśmy są wysyłane do Cintas w celu przechowywania na czas nieokreślony.

To pozwala nam mieć łatwy dostęp online do tych niezmiennych danych (więc nie musimy dzwonić na taśmę za każdym razem, gdy księgowy chce na coś spojrzeć), zachowując jednocześnie nieokreślone archiwa danych poza witryną, które mogą być potrzebne do przechowywania na zawsze i bez kruszenia naszego systemu tworzenia kopii zapasowych. Wygląda na to, że ten sam typ konfiguracji może Ci pomóc, ale możesz dostosować ilość danych przechowywanych online, w zależności od potrzeb dostępu do tych danych w odpowiednim czasie - 20 TB pamięci masowej klasy korporacyjnej jest znacznie droższe niż archiwizowanie go w dwóch lub trzech zestawach taśm LTO5, które przechowujesz w skarbcach zewnętrznych.

Beznadziejny
źródło
0

Może uda ci się zbudować własną kapsułę Backblaze : 135Tb za 7384 $
Kliknij tutaj, aby uzyskać więcej informacji: Informacje o budowie Backblaze Pod

Możesz kupić potrzebne elementy i sam je zbudować.

Może uda ci się zbudować 3 z nich i zatrzymać 2 na miejscu i 1 na zewnątrz. Następnie możesz użyć jednego zasobnika jako „danych online”, drugiego zasobnika na miejscu jako kopii zapasowej pierwszego zasobnika, a trzeciego zasobnika na zewnątrz jako awaryjnej kopii zapasowej w terenie.

Dzięki 135 TB miejsca na każdy moduł, możesz nawet pomyśleć o zachowaniu historii zmian ...
135 TB / 20 TB = 19 pełnych kopii zapasowych .
Alternatywnie możesz zachować 10 pełnych kopii zapasowych plus śmieszną ilość różnicowych kopii zapasowych.

Oczywiście, jeśli chcesz wykonać kopię zapasową poza siedzibą, potrzebujesz pewnego rodzaju dużej przepustowości ... :-)

Max
źródło
5
Jeśli Twoje dane i praca są dla Ciebie ważne, nie powinieneś próbować budować własnego zasobnika backblaze od zera. Wydaje się to dobrym pomysłem, dopóki nie uświadomisz sobie, że wkładasz wszystkie jajka do jednego naprawdę dużego koszyka. Co gorsza, koszyk ten nie został dokładnie przetestowany jako zintegrowana całość. Tajny sos backblaze to replikacja oprogramowania wielu strąków, która pozwala bezproblemowo zawieść całe strąki. Zamiast tego poleciłbym serwer pamięci supermicro, centos, xfs i rdiff-backup.
bugaboo,
-1

Mój współpracownik kupił 8-dyskowy serwer Synology NAS. Działa hybrydowy RAID. Kilka tygodni temu kupił osiem 3 TB Seagate Barracuda od NewEgg za 89 USD. Możesz zsynchronizować kopię lustrzaną z produkcyjnego NAS do tego nowego NAS przez GigaBit. Ponieważ przenosisz tylko różnice, przeniesienie potrwa krócej. Następnie możesz użyć zapasowego serwera NAS do wykonania pełnej lub przyrostowej operacji. Koszt dla Ciebie wyniósłby poniżej 2000 USD za zapasowy serwer NAS.

Słońce
źródło