Jak Google zdołał zaindeksować moje 403 strony?

Miałem kilka prywatnych plików w katalogu w moim szkolnym folderze. Możesz zobaczyć, że pliki istniały, przechodząc do myschool.edu/myusername/myfolder, ale próba uzyskania dostępu do samych plików przez myschool.edu/myusername/myfolder/myfile.html zwraca błąd 403.

A jednak Google jakoś udało się pobrać zawartość tych prywatnych plików i zapisać je w pamięci podręcznej! Jak to jest możliwe? [Od tego czasu usunąłem te pliki, więc jestem ciekawy, jak Google to zrobił.]

web-crawlers security googlebot grautur
źródło

To należy do webmasterów

RobertPitt

Odpowiedzi:

Najbardziej prawdopodobnym powodem jest to, że strony nie zwracają nagłówka 403.

Możesz to sprawdzić za pomocą paska narzędzi Web Developer Toolbar w przeglądarce Firefox lub Chrome. Narzędzie znajduje się w „Informacje” -> „Wyświetl nagłówki odpowiedzi”.

Ponadto sposób, w jaki tworzę strony błędów, to:

Tworzę fałszywą stronę błędu. Powiedzmy, że 403.php .
Tworzę rzeczywistą stronę błędu. Na przykład error403.php .
Na fałszywej stronie błędu umieszczam następujący kod: <?php header("Location: /error403.php",TRUE,301); ?>
W moim .htaccess umieszczam:

Options -Indexes

ErrorDocument 403 /403.php

To dodaje wszystkie przekierowania w odpowiedni sposób i upewnia mnie, że otrzymuję trochę soku ze stron błędów.

Można to naprawdę rozszerzyć w wyjątkowo fajny sposób, jeśli witryna ma wyszukiwarkę, która korzysta z żądań GET.

Vergil Penkov
źródło