Jak Google zdołał zaindeksować moje 403 strony?

10

Miałem kilka prywatnych plików w katalogu w moim szkolnym folderze. Możesz zobaczyć, że pliki istniały, przechodząc do myschool.edu/myusername/myfolder, ale próba uzyskania dostępu do samych plików przez myschool.edu/myusername/myfolder/myfile.html zwraca błąd 403.

A jednak Google jakoś udało się pobrać zawartość tych prywatnych plików i zapisać je w pamięci podręcznej! Jak to jest możliwe? [Od tego czasu usunąłem te pliki, więc jestem ciekawy, jak Google to zrobił.]

grautur
źródło
2
To należy do webmasterów
RobertPitt

Odpowiedzi:

5

Najbardziej prawdopodobnym powodem jest to, że strony nie zwracają nagłówka 403.

Możesz to sprawdzić za pomocą paska narzędzi Web Developer Toolbar w przeglądarce Firefox lub Chrome. Narzędzie znajduje się w „Informacje” -> „Wyświetl nagłówki odpowiedzi”.

Ponadto sposób, w jaki tworzę strony błędów, to:

  1. Tworzę fałszywą stronę błędu. Powiedzmy, że 403.php .
  2. Tworzę rzeczywistą stronę błędu. Na przykład error403.php .
  3. Na fałszywej stronie błędu umieszczam następujący kod: <?php header("Location: /error403.php",TRUE,301); ?>
  4. W moim .htaccess umieszczam:

    Options -Indexes

    ErrorDocument 403 /403.php

To dodaje wszystkie przekierowania w odpowiedni sposób i upewnia mnie, że otrzymuję trochę soku ze stron błędów.

Można to naprawdę rozszerzyć w wyjątkowo fajny sposób, jeśli witryna ma wyszukiwarkę, która korzysta z żądań GET.

Vergil Penkov
źródło