Czy możesz dać mi znać, jak zablokować takie adresy URL, robots.txt
aby Googleboty przestały indeksować?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Moja witryna została zaatakowana przez hakerów, co zostało odzyskane, ale haker zaindeksował 5000 adresów URL w Google i teraz pojawia się błąd 404 w losowo generowanych linkach, jak przede wszystkim, zaczynając od /+
podobnego powyższego linku.
Zastanawiałem się, czy istnieje inny sposób niż ręczne usunięcie tych adresów URL z Narzędzi Google dla webmasterów?
Czy możemy to zablokować robots.txt
do adresów URL zaczynających się od +
znaku?
+
ścieżce URL nie ma nic specjalnego (plus), jest to po prostu znak jak każdy inny.Odpowiedzi:
404 jest prawdopodobnie lepszym rozwiązaniem niż blokowanie,
robots.txt
jeśli chcesz, aby te adresy URL były usuwane z wyszukiwarek (np. Google). Jeśli zablokujesz indeksowanie, adres URL może pozostać indeksowany. (Uwaga:robots.txt
blokuje przede wszystkim indeksowanie , a nie indeksowanie ).Jeśli chcesz „przyspieszyć” cofnięcie indeksowania tych adresów URL, być może możesz podać „410 Gone” zamiast zwykłego „404 Not Found”. Możesz zrobić coś takiego z mod_rewrite (Apache) w swoim
.htaccess
pliku głównym :źródło
Odpowiem na drugie pytanie.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google wyraźnie stwierdza, że usunięcie za pośrednictwem Google Search Console (nowa nazwa narzędzi dla webmasterów) jest najszybsze.
Ale rozumieją również, że w niektórych przypadkach nie jest to możliwe:
Więc chociaż możesz zablokować te strony w pliku robots.txt - nie wykonujesz żadnego z kroków naprawczych wyjaśnionych przez Google.
źródło
powinien robić co chcesz. Powie robotowi, aby nie żądał wszystkich adresów URL zaczynających się od
+
.źródło
Jeśli naprawdę chcesz użyć robots.txt, byłaby to prosta odpowiedź na twoje pytanie. Również zamieściłem link do strony, na której można przeczytać specyfikację pliku robots.txt.
Przeczytaj o specyfikacjach robots.txt
Ale jedną z alternatyw może być użycie .htaccess, aby ustawić regułę przepisywania (jeśli używasz Apache itp.), Aby je złapać i być może powiedzieć Googleowi lepszy zwrot kodu HTTP lub po prostu przekierować ruch na inną stronę.
źródło
*
(gwiazdki) na końcu ścieżki URL. Należy go usunąć, aby uzyskać największą kompatybilność z pająkami.robots.txt
dopasowuje już prefiks, więc/+*
jest taki sam, jak w/+
przypadku botów obsługujących symbole wieloznaczne, a dla botów, które nie obsługują symboli wieloznacznych/+*
, nie będą się w ogóle dopasowywać.