Ekonomiczna, długoterminowa archiwizacja danych wideo i obrazów? ~ 50 TB

16

Moje laboratorium jest w trakcie konfigurowania małego serwera, który przechowuje dane (głównie dane wideo i zdjęcia oraz kilka dokumentów) dla projektu, nad którym grupa aktualnie pracuje. Historycznie, po zakończeniu projektu badawczego, dane losowe są archiwizowane na jednym dysku twardym lub dużym stosie płyt DVD (lub płyt CD w dawnych czasach) i / lub niektóre filmy wideo trafiły do ​​kaset Sony DV, a nawet Taśmy VHS (to laboratorium działa od wczesnych lat 90.), LUB połączenie wszystkich powyższych ...

Pytanie: Jaki jest najlepszy sposób (1) skonsolidowania ich WSZYSTKICH w tym samym formacie ORAZ nośnika pamięci, oraz (2) jaki jest najlepszy nośnik do długoterminowej archiwizacji takich danych w celu uzyskania sporadycznego dostępu (powiedzmy ponad 30 lat?)? Niestety nie mamy budżetu na poziomie przedsiębiorstwa (jesteśmy tylko 10-osobowym laboratorium), więc nie możemy robić rzeczy, które kosztują setki tysięcy dolarów.

Dzięki!

PS Biorąc pod uwagę, że nasze stare filmy i obrazy mają mniejszą rozdzielczość, ale najnowsze są ogromne, myślę, że mówimy o 30 ~ 40 TB dla naprawdę starych danych, kolejne 10 ~ 20 TB dla najnowszych danych, a następnie coroczne dodawanie około 5 TB .

hpy
źródło

Odpowiedzi:

22

Niestety nie ma dla ciebie najlepszego sposobu. 30-letnia archiwizacja mediów cyfrowych jest bardzo trudnym problemem i wymaga rutynowych inwestycji. Jedynymi formatami, które mogą być czytelne za 30 lat, są ASCII i UTF8, które nie są formatami wideo. Zmieniają się formaty pamięci, 8-ścieżkowe taśmy szpulowe, których używaliśmy 30 lat temu, są prawie niemożliwe do odczytania w dzisiejszych czasach, mimo że dane wciąż są na taśmie (ciekawa historia o przebudowie 40-letniego napędu NASA aby uzyskać dostęp do niektórych nowo odzyskanych / odkrytych taśm danych Apollo). Najlepszym rozwiązaniem jest przeprowadzanie okresowych, powiedzmy co 5 lat, ocen środowiska archiwalnego z wystarczającym budżetem na wprowadzenie starych formatów do nowszych.

Prawdopodobnie wiesz lepiej niż ja, ale krajobraz wideo szybko się zmienia. Edycja online w czasie rzeczywistym jest teraz możliwa, gdy wykonano ją na naprawdę dobrym zestawie nawet 10 lat temu. Kto wie, jak będzie wyglądać za 30 lat.

  • Ustaw okno archiwizacji na 5 lat.
    • W najbliższym czasie powinna wystarczyć obszerna tablica pamięci (
      • duży i wolny dysk o pojemności 50 TB można uzyskać za mniej niż 70 000 USD, prawdopodobnie znacznie poniżej.
      • Napęd taśm LTO5 i 50 taśm (o wartości ponad 50 TB) można kupić za mniej niż 15 000 USD.
  • W jakim formacie przechowujesz swój film, zależy od Ciebie.
  • Rozpocznij wyszukiwanie i konwertowanie wszystkich starszych rzeczy do nowego magazynu.
  • Pod koniec 5 lat wykonaj kolejną pełną ocenę swojego środowiska archiwalnego.
    • Jakich formatów używasz?
    • Jakie są nowsze formaty?
    • Jakie kodeki wydają się ślepymi zaułkami i jakie nośniki są w ten sposób zakodowane?
    • Wybierz sposób migracji do nowszych metod przechowywania (formaty danych, dysk / taśma / coś innego) i wydawaj odpowiednio.
  • Powtórz 6 razy.

To powinno zabrać cię do 30 lat.

sysadmin1138
źródło
+1, jeśli naprawdę chcesz być tani, prawdopodobnie uda ci się to zrobić co 10 lat. Dyski ATA-66 i 100 były dekadą preferencji HD dziesięć lat temu, a nadal istnieją technologie, aby się z nimi połączyć. Ale są już komputery, które nie mają nagłówków IDE, stara dekada technologii staje się niepewna.
Chris S
6
+1 za dobre punkty za kopiowanie, ale -1 za potwierdzenie, że formaty staną się nieczytelne. Gdy dane będą dostępne na nośniku do kopiowania, pliki te prawdopodobnie nie będą odtwarzane, chyba że będą w BARDZO dziwnym formacie. Archiwizacja do czegoś bardzo głównego, takiego jak MPEG2, jest bardzo prawdopodobne, że będzie to trwały format. Transkodowanie stratnego wideo jest procesem stratnym. Nie należy tego robić. Utrzymanie głównego kodeku wideo wokół nas nic nie kosztuje…
Paul McMillan
@Paul Dzięki za wskazówki. Ostatni raz regularnie kręciłem się wokół ludzi z wideo 7 lat temu, więc jestem zardzewiały.
sysadmin1138
Dziękuję bardzo za szczegółową ocenę i wskazówki! Zrobimy wszystko, co w naszej mocy, z naszym niestety ograniczonym budżetem na IT. Cieszę się, że wszyscy i serverfault.com są tutaj, aby ci pomóc.
hpy
tak, przyszliśmy na wiele sposobów. Nadal nie mam problemu z odtwarzaniem 17-letnich plików AVI z systemu Windows 3.1 dni. Sztuką jest wybranie formatów, które są już powszechnie używane.
Paul McMillan
11

Całkowicie zgadzam się z postem sysadmin1138 pod każdym względem z jednym zastrzeżeniem - nie sądzę, że będziesz miał budżet, aby naprawdę osiągnąć to, czego chcesz.

Istnieje 5 głównych funkcji, które musisz stworzyć;

  • znormalizowana polityka dotycząca zawartości i katalogu - wiem, że chcesz przechowywać wszystko w jednym formacie, ale naprawdę powinieneś rozważyć dwa - PDF dla obrazów i H.264 dla wideo - oba są formatami obsługi długoterminowej z kodem wieloplatformowym, który prawie z pewnością będą wspierane przez jedną lub drugą stronę przez 25-50 lat w ich obecnej formie, po prostu ze względu na istniejące zastosowanie na całym świecie.
  • katalog lub CMS do indeksowania i publikowania treści.
  • system „content ingest” - to zabierze wszystkie twoje media, spakuje, zakoduje, zapisze i zaktualizuje katalog dla każdego nowego elementu treści. Konieczne będzie także ręczne lub automatyczne sprawdzenie jakości treści.
  • podstawowy magazyn treści - będzie miał dwa główne bloki pamięci; jeden mały do ​​przechowywania treści źródłowej podczas transkodowania / sprawdzania oraz znacznie większy blok do przechowywania zawartości „blisko”. Jest to jedno z niewielu prawidłowych zastosowań RAID 6, z którym się zetknąłem, ale spróbuj użyć dysków o jakości korporacyjnej, które mają „cykl pracy” 24x365.
  • system długoterminowego tworzenia kopii zapasowych - tam będą wydawane prawdziwe pieniądze, musisz wybrać dostawcę, który oferuje naprawdę długoterminowe możliwości tworzenia kopii zapasowych. Gdybym to teraz robił, nadal korzystałbym z taśmy na dysku wyłącznie ze względu na długowieczność danych, być może przez IBM, ponieważ mają one duże doświadczenie w tej dziedzinie. Musisz również wziąć pod uwagę, że musisz regularnie wykonywać również operacje przywracania taśm i weryfikacji danych, co oznacza, że ​​będziesz potrzebować trzeciego bloku pamięci co najmniej tak dużego, jak największa posiadana taśma - i systemów, które również oczywiście musisz zweryfikować. Ponadto musisz upewnić się, że używane oprogramowanie do tworzenia kopii zapasowych będzie dostępne przez długi czas, coś takiego jak TAR na * nix prawdopodobnie będzie dostępne przez jakiś czas, ale może nie dać ci funkcjonalnie tego, czego chcesz, więc upewnij się, że nie zostało to pominięte przez dostawcę taśmy.

Więc to, co chcesz zrobić, może być zrobione, robiłem to sam wiele razy w ciągu ostatnich dwóch dekad - ale obawiam się, że żadne nie było tanie.

Powodzenia.

Siekacz 3
źródło
PDF dla obrazów wydaje się dość okropnym sposobem na zrobienie tego. Tak, absolutnie PDF dla dokumentów, ale zachowaj obrazy w formacie tiff lub JPEGS, w zależności od formatu wyjściowego. Umiejętność ich odczytania raczej nie zniknie.
Paul McMillan
Dzięki za wskazówki! Gdybym mógł oflagować dwie zaakceptowane odpowiedzi, zrobiłbym to. :)
hpy
1
to ok penyuan, 1138 i są pąkami;)
Chopper3
2
Szczerze mówiąc, trudność z jakimkolwiek systemem CMS polega na tym, że prawdopodobnie będzie to pierwsza i najbardziej przestarzała część systemu. Lepiej byłoby, gdyby każdy musiał napisać plik tekstowy ASCII z kilkoma podstawowymi opisami i przechowywać go z surowymi danymi. Każdy system CMS lub automatyczny zestarzeje się w skali kilku lat.
Paul McMillan
3

Inni udzielili dobrych porad na temat tworzenia kopii zapasowych mediów. Proponuję poświęcić trochę czasu na zapoznanie się z biblioteką wytycznych kongresu:

http://www.digitalpreservation.gov/formats/index.shtml

Możesz także rozważyć zbudowanie taniej tablicy ZFS whitebox. Prawdopodobnie możesz zrobić coś, aby zaspokoić swoje potrzeby za mniej niż 10 000 USD. Gdy dyski giną, zamieniaj je na większe, co zwiększa pojemność pamięci podczas generowania danych. To prawdopodobnie utrzyma cię przez dłuższy czas, a gdy się zestarzeje, możesz je wymienić na urządzenie o większej pojemności. Zaletą jest to, że twoje dane są w trybie online (a więc można uzyskać do nich dostęp w razie potrzeby) i są stosunkowo dobrze chronione przed bitrotem, poważnym problemem, gdy masz tak dużo danych.

Udostępniono tutaj opcję przyzwoitej kompilacji:

http://www.zfsbuild.com/

Paul McMillan
źródło
2

Choć jest to trudne dla technologów, zaleciłbym natychmiastowe zatrzymanie przemyśleń na temat dysków i technologii. Podziel swój problem biznesowy na rzeczy, o których musisz podejmować decyzje.

Przykład:

  • Jak poradzisz sobie z konwersją analogowych / różnych formatów taśm cyfrowych na nośniki cyfrowe, które można przechowywać na jakimś nośniku cyfrowym?
  • Jak zamierzasz zarządzać zawartością i powiązanymi metadanymi? Przechowywanie jest łatwe - wszystko można umieścić na taśmie LTO i przechowywać w starej kopalni soli, ale nie masz dostępu do danych.
  • Czy na nowo wymyślasz koło? Jeśli jesteś na uniwersytecie, czy istnieją już rozwiązania do zarządzania treścią dostępne centralnie? A jeśli potrzebujesz kupić / zbudować własne zarządzanie treścią, czy istnieje scentralizowana infrastruktura, której możesz kupić? (Tape, Object storage, SAN)
  • Jakie są prawdziwe wymagania biznesowe? Co naprawdę chcesz zachować i dlaczego? Często, gdy naprawdę zagłębiasz się w sedno sprawy, rzeczywiste wymagania dotyczące długoterminowego przechowywania dotyczą w rzeczywistości tylko niewielkiej części danych.
duffbeer703
źródło
1

Pamiętaj, że jeśli przechowujesz dane w formacie stratnym, a następnie konwertujesz na inny format stratny, a następnie inny, jakość wideo pogorszy się z każdym przejściem.

Mówi się o dźwięku, ale ogólnie to samo dotyczy:

Możesz przekonwertować dowolny format audio na Ogg Vorbis. Jednak konwersja z jednego formatu stratnego, takiego jak MP3, do innego formatu stratnego, takiego jak Vorbis, jest ogólnie złym pomysłem. Zarówno kodery MP3, jak i Vorbis osiągają wysoki współczynnik kompresji, wyrzucając części fali dźwiękowej, których prawdopodobnie nie usłyszysz. Jednak kodeki MP3 i Vorbis są bardzo różne, więc każdy z nich wyrzuci różne części dźwięku, choć z pewnością pewne nakładanie się. Konwersja pliku MP3 na Vorbis obejmuje dekodowanie pliku MP3 z powrotem do nieskompresowanego formatu, takiego jak WAV, i ponowne skompresowanie go za pomocą kodera Ogg Vorbis. W zdekodowanym pliku MP3 brakuje części oryginalnego dźwięku, które koder MP3 wybrał do odrzucenia. Koder Ogg Vorbis odrzuci następnie inne komponenty audio podczas kompresji danych. W najlepszym wypadku, wynikiem będzie plik Ogg, który brzmi tak samo jak oryginalny plik MP3, ale najprawdopodobniej wynikowy plik będzie brzmiał gorzej niż oryginalny plik MP3. W żadnym wypadku nie otrzymasz pliku, który brzmi lepiej niż oryginalny MP3.

Ponieważ wiele odtwarzaczy muzycznych może odtwarzać zarówno pliki MP3, jak i Ogg, nie ma powodu, aby przełączać wszystkie pliki na jeden format. Jeśli lubisz Ogg Vorbis, zachęcamy do korzystania z niego podczas kodowania z oryginalnych, bezstratnych źródeł audio (takich jak płyty CD). Podczas kodowania z oryginałów okaże się, że możesz tworzyć pliki Ogg, które są mniejsze lub mają lepszą jakość (lub oba) niż pliki MP3.

(Jeśli musisz koniecznie przekonwertować z MP3 na Ogg, w Freshmeat dostępnych jest kilka skryptów konwersji).

http://www.vorbis.com/faq/#transcode

Prawdopodobnie najlepiej wybrać format bezstratny, ponieważ po wybraniu jednego formatu stratnego utkniesz z nim.

Wymuskany
źródło
3
Bezstratne wideo nie jest obecnie praktyczne do przechowywania. Archiwizacja koncertów na minutę materiału jest po prostu zbyt droga. Wybierz stratny kodek, z którego jesteś zadowolony, który jest obecnie szeroko stosowany, i zostaw w nim swoje media.
Paul McMillan
Dzięki za słuszną uwagę na temat bezstratności, zdecydowanie zastanowimy się nad tym.
hpy
1

Być może brakuje mi czegoś, czy nie możesz zakodować wszystkiego przy użyciu otwartego formatu, w którym dostępny jest kod źródłowy kodeków, a następnie po prostu przykleić to wszystko na Amazon S3?

W ten sposób Amazon musi się martwić o faktyczne przechowywanie danych, a jeśli nie będzie komputerów, które mogłyby skompilować C / C ++ za 30 lat, będziesz w stanie uzyskać informacje ...

Bogaty
źródło