Niestety nasz dostawca hostingu doświadczył 100% utraty danych, więc straciłem całą zawartość dwóch hostowanych witryn blogowych:
(Tak, tak, absolutnie powinienem był wykonać pełne kopie zapasowe poza siedzibą. Niestety, wszystkie moje kopie zapasowe były na samym serwerze. Więc zachowaj wykład; masz 100% absolutną rację, ale w tej chwili mi to nie pomaga. skoncentruj się na pytaniu tutaj!)
Zaczynam powolny, bolesny proces odzyskiwania strony z pamięci podręcznych przeszukiwaczy stron internetowych.
Istnieje kilka zautomatyzowanych narzędzi do odzyskiwania strony z pamięci podręcznych pająków internetowych (Yahoo, Bing, Google itp.), Takich jak Warrick , ale miałem złe wyniki, używając tego:
- Mój adres IP został szybko zablokowany w Google za używanie go
- Dostaję wiele błędów 500 i 503 i „czekam 5 minut…”
- Ostatecznie mogę ręcznie odzyskać treść tekstu
Miałem dużo więcej szczęścia, korzystając z listy wszystkich postów na blogu, przechodząc do pamięci podręcznej Google i zapisując każdy plik jako HTML. Chociaż istnieje wiele blogach, nie ma to wiele, a ja figura ja zasługują samobiczowania za nie posiadanie strategii lepiej kopii zapasowej. W każdym razie ważne jest to, że miałem szczęście uzyskać tekst posta na blogu w ten sposób i zdecydowanie jestem w stanie wydobyć tekst stron internetowych z pamięci podręcznej Internetu. Na podstawie tego, co zrobiłem do tej pory, jestem pewien, że mogę odzyskać cały utracony tekst i komentarze na blogu .
Jednak obrazy, które towarzyszą każdemu postowi na blogu, okazują się… trudniejsze.
Czy są jakieś ogólne wskazówki dotyczące odzyskiwania stron internetowych z pamięci podręcznej Internetu, aw szczególności miejsca odzyskiwania zarchiwizowanych obrazów ze stron internetowych ?
(I znowu, proszę, żadnych wykładów zapasowych. Masz całkowitą, całkowitą, całkowitą rację! Ale racja nie rozwiązuje mojego bezpośredniego problemu… Chyba że masz maszynę czasu…)
źródło
Odpowiedzi:
Oto moje dzikie pchnięcie nożem w ciemność: skonfiguruj serwer WWW, aby zwracał 304 dla każdego żądania obrazu, a następnie przeprowadź odzyskiwanie źródła przez publikowanie listy adresów URL i proszenie w podcastie, aby wszyscy czytelnicy załadowali każdy adres URL i zebrali jakiekolwiek obrazy ładowane z lokalnych pamięci podręcznych. (Może to działać tylko po przywróceniu samych stron HTML wraz z
<img ...>
tagami, co wydaje się sugerować, że twoje pytanie będzie w stanie to zrobić).Jest to w zasadzie fantazyjny sposób powiedzenia „pobierz z pamięci podręcznej przeglądarki”. Masz wielu czytelników i słuchaczy podcastów, dzięki czemu możesz skutecznie zmobilizować dużą liczbę osób, które prawdopodobnie ostatnio przeglądały Twoją witrynę. Jednak ręczne wyszukiwanie i wyodrębnianie obrazów z pamięci podręcznych różnych przeglądarek internetowych jest trudne, a całe podejście działa najlepiej, jeśli jest wystarczająco łatwe, aby wiele osób wypróbowało je i odniosło sukces. Zatem podejście 304. Wszystko, czego wymaga czytelnik, to kliknięcie szeregu linków i przeciągnięcie obrazów załadowanych w przeglądarce internetowej (lub kliknięcie prawym przyciskiem myszy i zapisanie jako itp.), A następnie przesłanie ich pocztą e-mail lub przesłanie do centralna lokalizacja, którą skonfigurowałeś lub cokolwiek innego Główną wadą tego podejścia jest to, że pamięci podręczne przeglądarki internetowej nie cofają się tak daleko. Ale wystarczy tylko jeden czytelnik, który w ciągu ostatnich kilku dni załadował post z 2006 roku, aby uratować nawet bardzo stary obraz. Przy odpowiednio dużej grupie odbiorców wszystko jest możliwe.
źródło
canvas
i wysłać je do domu przez AJAX.Niektórzy z nas podążają za tobą za pomocą czytnika RSS i nie usuwają pamięci podręcznej. Mam posty na blogu, które wydają się pochodzić z 2006 roku. Z tego, co widzę, nie ma zdjęć, ale mogą być lepsze niż to, co robisz teraz.
źródło
(1) Wyodrębnij listę nazw plików wszystkich brakujących obrazów z kopii zapasowych HTML. Pozostanie Ci coś takiego:
(2) Przeprowadź wyszukiwanie grafiki Google dla tych nazw plików. Wygląda na to, że WIELU z nich zostało „odzwierciedlonych” przez innych blogerów i jest gotowych do wzięcia, ponieważ mają tę samą nazwę pliku .
(3) Możesz to zrobić w sposób zautomatyzowany, jeśli okaże się skuteczny, powiedzmy, dla ponad 10 zdjęć.
źródło
Przechodząc do wyszukiwania grafiki Google i wpisując
site:codinghorror.com
, możesz przynajmniej znaleźć miniatury wszystkich swoich zdjęć. Nie, niekoniecznie pomaga, ale daje punkt wyjścia do odzyskania tysięcy zdjęć.Wygląda na to, że Google przechowuje w niektórych przypadkach większą miniaturę :
Google jest po lewej, Bing po prawej.
źródło
Przykro nam, że słyszę o blogach. Nie będę wykładał. Ale znalazłem coś, co wydaje się być twoimi obrazami na Imageshack. Czy są naprawdę twoje, czy ktoś przechowywał ich kopię?
http://profile.imageshack.us/user/codinghorror
Wygląda na to, że mają 456 zdjęć w pełnym rozmiarze. To może być najlepszy zakład na odzyskanie wszystkiego. Może nawet zapewnią ci zrzut.
źródło
Jeff, coś tu dla ciebie napisałem
Krótko mówiąc, proponuję:
Skonfiguruj serwer WWW, aby zwracał 304 dla każdego żądania obrazu. 304 oznacza, że plik nie jest modyfikowany, a to oznacza, że przeglądarka pobierze plik z pamięci podręcznej, jeśli jest tam obecny. (kredyt: ta odpowiedź SuperUser )
Na każdej stronie w witrynie dodaj mały skrypt, aby przechwycić dane obrazu i wysłać je na serwer.
Zapisz dane obrazu na serwerze.
Voila!
Możesz pobrać skrypty z podanego linku.
źródło
Spróbuj tego zapytania na maszynie Wayback :
Otrzymasz wszystkie obrazy z codinghorror.com zarchiwizowane przez archive.org. Zwraca 3878 obrazów, z których niektóre są duplikatami. To nie będzie pełne, ale dobry początek.
W przypadku pozostałych zdjęć możesz użyć miniaturek z pamięci podręcznej wyszukiwarki, a następnie wykonać przegląd wstecz, używając ich na stronie http://www.tineye.com/ . Dajesz mu obraz miniatury, a on daje podgląd i wskaźnik do ściśle pasujących obrazów znalezionych w sieci.
źródło
+1 na
dd
zalecenie, jeśli (1) surowy dysk jest gdzieś dostępny; oraz (2) obrazy były prostymi plikami. Następnie możesz użyć narzędzia „rzeźbienia danych”, aby (na przykład) wyciągnąć wszystkie wiarygodne zakresy, które wydają się być JPG / PNG / GIF. Odzyskałem ponad 95% zdjęć z iPhone'a, który został w ten sposób wyczyszczony.Można do tego wykorzystać narzędzia „open source” i „skalpel” będący jego następcą:
http://foremost.sourceforge.net/
http://www.digitalforensicssolutions.com/Scalpel/
źródło
Na szczęście przyszłe pokolenia będą w porządku.
Nawet przy niewielkiej części tej dużej skały naukowcy / lingwiści wiele się zorientowali.
Jeśli brakuje kilku zdjęć, pozostaw to komuś, by wymyślił za kilka tysięcy lat.
Mam nadzieję, że trochę się śmiejesz. :)
źródło
Zawsze możesz spróbować także archive.org. Użyj maszyny powrotnej. Użyłem tego do odzyskiwania zdjęć z moich stron internetowych.
źródło
Tak więc, absolutnie najgorszy przypadek, nic nie możesz odzyskać. Cholera.
Spróbuj złapać zminimalizowane google i przeszukać je przez TinEye , wyszukiwarkę wstecznego obrazu. Mamy nadzieję, że powinien pobrać wszelkie duplikaty lub rehosty utworzone przez ludzi.
źródło
To długa szansa, ale można rozważyć:
Na przykład zobacz Nirsoft Mozilla Cache Viewer :
(źródło: nirsoft.net )
Może szybko wykopać dowolne zdjęcie „blog.stackoverflow.com”, które wciąż można mieć za pomocą prostej linii poleceń:
Uwaga: mają tę samą przeglądarkę pamięci podręcznej dla Chrome .
(źródło: nirsoft.net )
(Muszę mieć 15 dni na blog.stackoverflow.com zdjęć)
I Internet Explorer lub Opera .
Następnie zaktualizuj listę publiczną, aby odzwierciedlić to, co czytelnicy zgłaszają znalezieniem w swojej pamięci podręcznej.
źródło
W przeszłości korzystałem z http://www.archive.org/, aby pobierać buforowane obrazy. To rodzaj trafienia lub chybienia, ale zadziałało dla mnie.
Ponadto, gdy próbuję odzyskać zdjęcia stockowe, które wykorzystałem na starej stronie, www.tineye.com jest świetny, gdy mam tylko miniatury i potrzebuję obrazów w pełnym rozmiarze.
Mam nadzieję, że to Ci pomoże. Powodzenia.
źródło
Prawdopodobnie nie jest to najłatwiejsze lub najbardziej niezawodne rozwiązanie, ale usługi takie jak Evernote zwykle zapisują zarówno tekst, jak i obrazy, gdy są one przechowywane w aplikacji - być może niektórzy pomocni czytelnicy, którzy zapisali twoje artykuły, mogliby zapisać obrazy i odesłać je z powrotem do ciebie ?
źródło
Miałem wspaniałe doświadczenia z archive.org . Nawet jeśli nie możesz wyodrębnić wszystkich swoich postów na blogu z witryny, przechowują one okresowe migawki:
W ten sposób możesz sprawdzić każdą stronę i zobaczyć posty na blogu. Dzięki nazwom wszystkich postów możesz je łatwo znaleźć w pamięci podręcznej Google, jeśli archive.org go nie ma. Archiwum próbuje zachować obrazy, pamięć podręczna Google będzie miała obrazy, a ostatnio nie opróżniłem pamięci podręcznej, więc mogę pomóc Ci z najnowszymi wpisami na blogu :)
źródło
Czy próbowałeś własnej pamięci podręcznej lokalnej przeglądarki? Jest całkiem spora szansa, że niektóre z najnowszych rzeczy wciąż tam są. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache
(Lub możesz skompilować listę wszystkich brakujących obrazów i każdy może sprawdzić ich pamięć podręczną, aby sprawdzić, czy możemy wypełnić puste pola)
źródło
Sugestia na przyszłość: korzystam z Windows Live Writer do blogowania i zapisuję lokalne kopie postów na moim komputerze, a także publikuję je na blogu.
źródło
Około pięć lat temu wczesne wcielenie zewnętrznego dysku twardego, na którym przechowywałem wszystkie moje cyfrowe zdjęcia, zawiodło. Zrobiłem obraz dysku twardego za pomocą
dd
i napisałem podstawowe narzędzie do odzyskiwania wszystkiego, co wyglądało jak obraz JPEG. Wyciągnąłem z tego większość moich zdjęć.Pytanie brzmi: czy można uzyskać kopię obrazu dysku maszyny wirtualnej, w której przechowywane są obrazy?
źródło
Archiwum internetowe buforuje obrazy. W tej chwili jest pod dużym obciążeniem, powinieneś być w porządku do około 2008 roku.
http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/
źródło
Sugeruję połączenie archive.org i anonimizatora żądania, takiego jak [Tor] [2]. Sugeruję użycie anonimizatora, ponieważ w ten sposób każde twoje żądanie będzie miało losowy adres IP i lokalizację, dzięki czemu będziesz mógł uniknąć zbanowania przez archive.org (podobnie jak Google) za niezwykle dużą liczbę żądań.
Powodzenia, na tym blogu jest wiele klejnotów.
źródło
Maszyna do powrotu będzie miała trochę. Pamięć podręczna Google i podobne pamięci podręczne będą miały trochę.
Jedną z najbardziej skutecznych rzeczy, jaką możesz zrobić, jest wysłanie pocztą e-mail oryginalnych plakatów z prośbą o pomoc.
Mam kilka zaleceń infrastrukturalnych, ponieważ po tym wszystkim wszystko zostało wyczyszczone. Podstawowym problemem nie są kopie zapasowe, brak replikacji witryny i brak inspekcji. Jeśli wyślesz mi wiadomość e-mail na temat zawartości prywatnego pola e-mail, później, gdy w pewnym sensie będziesz na nogach, chętnie omówię z tobą tę sprawę.
źródło
Jeśli twoje obrazy były przechowywane w zewnętrznej usłudze, takiej jak Flickr lub CDN (jak wspomniano w jednym z podcastów), nadal możesz mieć tam zasoby graficzne.
Niektóre obrazy można znaleźć podczas wyszukiwania w Grafice Google i kliknąć „Znajdź podobne obrazy” , być może są kopie na innych stronach.
źródło
archive.org czasami ukrywa obrazy. Uzyskaj każdy adres URL ręcznie (lub napisz krótki skrypt) i zapytaj go o to w ten sposób:
string.Format („GET / * / {0}”, nextUri)
Oczywiście przeszukiwanie tego będzie dość uciążliwe.
Mogę mieć trochę w pamięci podręcznej przeglądarki. Jeśli to zrobię, gdzieś je hostuję.
źródło
Jeśli chcesz spróbować zeskrobać pamięć podręczną użytkowników, możesz ustawić serwer tak, aby odpowiadał
304 Not Modified
na wszystkie żądania warunkowe GET („If-Modified-Since” lub „If-None-Match”), których przeglądarki używają ponownie zweryfikuj ich buforowany materiał.Jeśli początkowe buforowanie nagłówków statycznych treści, takich jak obrazy, było dość liberalne - pozwalając na buforowanie rzeczy przez kilka dni lub miesięcy - możesz nadal otrzymywać prośby o ponowne sprawdzenie poprawności. Ustaw plik cookie dla tych żądań i apeluj do tych użytkowników, aby uruchomili skrypt na swojej pamięci podręcznej w celu wyodrębnienia obrazów, które nadal mają.
Uważaj jednak: w momencie, gdy zaczniesz umieszczać dowolne treści tekstowe z wbudowanymi zasobami, które jeszcze nie są dostępne, możesz wyczyścić te wersje z pamięci podręcznej, gdy rewalidatory osiągną 404 sekundy.
źródło
Możesz użyć TinEye, aby znaleźć duplikaty swoich zdjęć , przeszukując miniatury za pomocą pamięci podręcznej Google . Pomoże to jednak tylko w przypadku zdjęć wykonanych z innych witryn.
źródło
Ryzykując wskazanie rzeczy oczywistych, spróbuj przeszukać kopie zapasowe własnych obrazów komputera. Wiem, że moja strategia tworzenia kopii zapasowych jest na tyle przypadkowa, że mam wiele kopii wielu plików zawieszonych na dyskach zewnętrznych, nagranych dyskach oraz w plikach zip / tar. Powodzenia!
źródło
Udało mi się odzyskać te pliki z pamięci podręcznej Safari w systemie Snow Leopard:
Jeśli ktoś chce spróbować, napisałem skrypt Pythona, aby wyodrębnić go do ~ / codinghorror / filename, który umieściłem tutaj online .
Mam nadzieję, że to pomoże.
źródło
Czy miałeś okazję sprawdzić, czy Twój dostawca hostingu w ogóle ma jakąś kopię zapasową (niektóre starsze wersje)?
źródło
Ile warte są te dane? Jeśli jest to warte znacznej kwoty (tysiące dolarów), zastanów się, czy nie poprosić swojego dostawcy hostingu o dysk twardy używany do przechowywania danych na swojej stronie internetowej (w przypadku utraty danych z powodu awarii sprzętu). Następnie możesz przenieść dysk na ontrack lub inną usługę odzyskiwania danych, aby zobaczyć, co możesz z niego wydostać. Negocjowanie może być trudne ze względu na możliwość odzyskania danych innych osób na dysku, ale jeśli naprawdę cię to obchodzi, prawdopodobnie możesz to rozwiązać.
źródło
Bardzo przykro mi to słyszeć i jestem bardzo zirytowany dla ciebie, i czasu - chciałem kopię offline kilku twoich postów i wykonałem HTTrack na całej stronie, ale musiałem wyjść (to było kilka tygodni temu) i Zatrzymałem to.
Jeśli host jest w połowie zejścia - i przez fakt, że zgaduję, że jesteś dobrym klientem ... Poprosiłbym ich, aby albo przesłali ci dyski twarde (jak sądzę, powinni używać RAID), albo sami dokonają odzyskiwania.
Chociaż może to nie być szybki proces, zrobiłem to z jednym hostem dla klienta i udało mi się odzyskać całe bazy danych w nienaruszonym stanie (... w zasadzie host próbował uaktualnić panel sterowania, którego używali, i zepsuł się .. ale nic nie zostało zastąpione).
Cokolwiek się stanie - powodzenia od wszystkich fanów na stronach SO!
źródło