Mam podkatalog, który chciałbym ukryć przed robotami indeksującymi wyszukiwarki.
Jednym ze sposobów jest skorzystanie robots.txt
z katalogu głównego serwera (standardowy sposób). Jednak każdy, kto zna adres URL witryny i ma podstawową wiedzę o sieci, może uzyskać dostęp do zawartości pliku robots.txt i dostrzec niedozwolone katalogi.
Pomyślałem, jak tego uniknąć, ale nie jestem pewien, czy zadziała.
Niech X
będzie nazwą podkatalogu, który chcę wykluczyć. Jednym ze sposobów, aby zatrzymać indeksujące indeksowania X
katalogu i jednocześnie, aby trudniej kogoś do zidentyfikowania X
katalog z korzenia robots.txt
, jest dodanie robots.txt
w X
katalogu zamiast katalogu głównego.
Jeśli zastosuję się do tego rozwiązania, mam następujące pytania:
- Czy roboty indeksujące znajdą to
robots.txt
w podkatalogu? (biorąc pod uwagę, żerobots.txt
już istnieje, a także w katalogu głównym) Jeśli
robots.txt
znajduje się wX
podkatalogu, to czy powinienem używać ścieżek względnych czy bezwzględnych ?:User-agent: * Disallow: /X/
lub
User-agent: * Disallow: /
źródło
Odpowiedzi:
Nie, roboty indeksujące nie będą czytać ani wykonywać pliku robots.txt w podkatalogu. Jak opisano na quasi-oficjalnej stronie robotstxt.org :
lub na stronach pomocy Google ( podkreślenie moje):
W każdym razie użycie robots.txt do ukrycia poufnych stron przed wynikami wyszukiwania jest złym pomysłem, ponieważ wyszukiwarki mogą indeksować strony niedozwolone w robots.txt, jeśli prowadzą do nich inne strony. Lub, jak opisano na stronie pomocy Google, do której link znajduje się powyżej:
Co więc powinieneś zrobić zamiast tego?
Możesz zezwolić wyszukiwarkom na indeksowanie stron (jeśli je znajdą), ale dołączając do treści metatag robota
noindex,nofollow
. Dzięki temu wyszukiwarki nie będą indeksować tych stron, nawet jeśli znajdą do nich linki, i nie będą podążać za dalszymi linkami z tych stron. (Oczywiście będzie to działać tylko w przypadku stron HTML).W przypadku zasobów innych niż HTML możesz skonfigurować serwer WWW (np. Używając
.htaccess
pliku), aby wysyłał nagłówek HTTP X-Robots-Tag o tej samej treści.Możesz skonfigurować uwierzytelnianie hasłem, aby chronić wrażliwe strony. Oprócz ochrony stron przed nieupoważnionymi gośćmi, skutecznie powstrzyma również roboty indeksujące.
źródło
Twój
robots.txt
powinien znajdować się w katalogu głównym i nie powinien mieć żadnej innej nazwy. Zgodnie ze standardową specyfikacją :źródło
/robots.txt
jest standardem, więc w jaki sposób wyszukiwarki mogłyby wiedzieć, gdzie szukać inaczej?W rzeczywistości MOŻESZ użyć pliku robots.txt w podkatalogu. W ten sposób traktujemy nasze poddomeny językowe. Używamy przekierowania 301 z /robots.txt do /lang/robots.txt (na subdomenę) i jest on poprawnie pobierany.
Podnosi również strukturę folderów jako prawidłowy katalog główny, gdy używasz prostego ukośnika. na przykład. zabronić: /
jest traktowany jako blokowanie wszystkiego, a nie tylko bieżącego podkatalogu, w którym znajduje się plik robots.txt {redirected}.
Ale ponownie przekierowujemy za pomocą 301 i mamy to na swoim miejscu, więc bez 301 wątpię, by kiedykolwiek się znalazł ...
źródło