Witryna została zaatakowana przez hakerów. Musisz usunąć wszystkie adresy URL zaczynające się od + z Google, użyć robots.txt?

15

Czy możesz dać mi znać, jak zablokować takie adresy URL, robots.txtaby Googleboty przestały indeksować?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Moja witryna została zaatakowana przez hakerów, co zostało odzyskane, ale haker zaindeksował 5000 adresów URL w Google i teraz pojawia się błąd 404 w losowo generowanych linkach, jak przede wszystkim, zaczynając od /+podobnego powyższego linku.

Zastanawiałem się, czy istnieje inny sposób niż ręczne usunięcie tych adresów URL z Narzędzi Google dla webmasterów?

Czy możemy to zablokować robots.txtdo adresów URL zaczynających się od +znaku?

unor
źródło
2
W +ścieżce URL nie ma nic specjalnego (plus), jest to po prostu znak jak każdy inny.
MrWhite
Możesz przekierować Apache (w .htaccess) do pliku lub katalogu, który robots.txt zabrania robotom dostępu
Mawg mówi o przywróceniu Moniki
@Mawg Po co to robić?
MrWhite
Aby utrzymać dobrze zachowujące się roboty?
Mawg mówi o przywróceniu Moniki
2
Niezależnie od problemu z adresami URL możesz przeczytać Jak poradzić sobie z zainfekowanym serwerem?
Jonas Schäfer

Odpowiedzi:

30

Moja witryna została zaatakowana przez hakerów, co zostało odzyskane, ale haker zaindeksował 5000 adresów URL w Google i teraz pojawia się błąd 404

404 jest prawdopodobnie lepszym rozwiązaniem niż blokowanie, robots.txtjeśli chcesz, aby te adresy URL były usuwane z wyszukiwarek (np. Google). Jeśli zablokujesz indeksowanie, adres URL może pozostać indeksowany. (Uwaga: robots.txtblokuje przede wszystkim indeksowanie , a nie indeksowanie ).

Jeśli chcesz „przyspieszyć” cofnięcie indeksowania tych adresów URL, być może możesz podać „410 Gone” zamiast zwykłego „404 Not Found”. Możesz zrobić coś takiego z mod_rewrite (Apache) w swoim .htaccesspliku głównym :

RewriteEngine On
RewriteRule ^\+ - [G]
MrWhite
źródło
14

Odpowiem na drugie pytanie.

Zastanawiałem się, czy istnieje inny sposób niż ręczne usunięcie tych adresów URL z narzędzi Google dla webmasterów?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google wyraźnie stwierdza, że ​​usunięcie za pośrednictwem Google Search Console (nowa nazwa narzędzi dla webmasterów) jest najszybsze.

Jeśli haker utworzył całkowicie nowe, widoczne adresy URL, możesz szybciej usunąć te strony z wyników wyszukiwania Google, korzystając z funkcji Usuń adresy URL w Search Console. To całkowicie opcjonalny krok. Jeśli po prostu usuniesz strony, a następnie skonfigurujesz serwer tak, aby zwracał kod stanu 404, strony naturalnie wypadną z indeksu Google z czasem.

Ale rozumieją również, że w niektórych przypadkach nie jest to możliwe:

Decyzja o usunięciu adresu URL prawdopodobnie będzie zależeć od liczby utworzonych nowych, niechcianych stron (zbyt wiele stron może być nieporęcznych, aby można je było uwzględnić w opcji Usuń adresy URL), a także od potencjalnego uszkodzenia tych stron przez użytkowników. Aby strony przesłane za pomocą funkcji usuwania adresów URL nie pojawiały się nigdy w wynikach wyszukiwania, upewnij się, że strony są skonfigurowane tak, aby zwracały odpowiedź 404 „Nie znaleziono pliku” na niechciane / usunięte adresy URL.

Więc chociaż możesz zablokować te strony w pliku robots.txt - nie wykonujesz żadnego z kroków naprawczych wyjaśnionych przez Google.

pastepotpete
źródło
4
User-Agent: *  
Disallow: /+

powinien robić co chcesz. Powie robotowi, aby nie żądał wszystkich adresów URL zaczynających się od +.

Sven
źródło
2

Jeśli naprawdę chcesz użyć robots.txt, byłaby to prosta odpowiedź na twoje pytanie. Również zamieściłem link do strony, na której można przeczytać specyfikację pliku robots.txt.

User-agent: *
Disallow: /+

Przeczytaj o specyfikacjach robots.txt

Ale jedną z alternatyw może być użycie .htaccess, aby ustawić regułę przepisywania (jeśli używasz Apache itp.), Aby je złapać i być może powiedzieć Googleowi lepszy zwrot kodu HTTP lub po prostu przekierować ruch na inną stronę.

davidbl
źródło
2
Nie ma potrzeby *(gwiazdki) na końcu ścieżki URL. Należy go usunąć, aby uzyskać największą kompatybilność z pająkami. robots.txtdopasowuje już prefiks, więc /+*jest taki sam, jak w /+przypadku botów obsługujących symbole wieloznaczne, a dla botów, które nie obsługują symboli wieloznacznych /+*, nie będą się w ogóle dopasowywać.
MrWhite
Masz rację, właśnie to napisałem na podstawie jego pytania dotyczącego Googlebota. Zredagowałem go, aby odzwierciedlić lepszą kompatybilność z wieloma botami.
davidbl