Miałem kilka prywatnych plików w katalogu w moim szkolnym folderze. Możesz zobaczyć, że pliki istniały, przechodząc do myschool.edu/myusername/myfolder, ale próba uzyskania dostępu do samych plików przez myschool.edu/myusername/myfolder/myfile.html zwraca błąd 403.
A jednak Google jakoś udało się pobrać zawartość tych prywatnych plików i zapisać je w pamięci podręcznej! Jak to jest możliwe? [Od tego czasu usunąłem te pliki, więc jestem ciekawy, jak Google to zrobił.]
web-crawlers
security
googlebot
grautur
źródło
źródło
Odpowiedzi:
Najbardziej prawdopodobnym powodem jest to, że strony nie zwracają nagłówka 403.
Możesz to sprawdzić za pomocą paska narzędzi Web Developer Toolbar w przeglądarce Firefox lub Chrome. Narzędzie znajduje się w „Informacje” -> „Wyświetl nagłówki odpowiedzi”.
Ponadto sposób, w jaki tworzę strony błędów, to:
<?php header("Location: /error403.php",TRUE,301); ?>
W moim .htaccess umieszczam:
Options -Indexes
ErrorDocument 403 /403.php
To dodaje wszystkie przekierowania w odpowiedni sposób i upewnia mnie, że otrzymuję trochę soku ze stron błędów.
Można to naprawdę rozszerzyć w wyjątkowo fajny sposób, jeśli witryna ma wyszukiwarkę, która korzysta z żądań GET.
źródło