Zdecydowanie zalecamy zarejestrowanie witryny w Google Search Console (wcześniej Google Webmaster Tools) . W konfiguracji witryny znajduje się sekcja dostępu dla robota, która powie Ci, kiedy plik robots.txt został ostatnio pobrany. Narzędzie zawiera również wiele szczegółowych informacji na temat tego, w jaki sposób roboty widzą Twoją witrynę, co jest zablokowane lub nie działa oraz gdzie pojawia się w zapytaniach w Google.
Z tego, co mogę powiedzieć, Google często pobiera plik robots.txt . Witryna Google Search Console pozwala również na szczególne usuwanie adresów URL z indeksu, dzięki czemu możesz usunąć te, które teraz blokujesz.
Wytrwać. Zmieniłem z robots.txt na meta noindex, nofollow. Aby meta działała, najpierw trzeba odblokować zablokowane adresy w pliku robots.txt.
Zrobiłem to brutalnie, usuwając plik robots.txt całkowicie (i usuwając go z webmastera Google).
Proces usuwania robots.txt widoczny w narzędziu dla webmasterów (liczba zablokowanych stron) zajął 10 tygodni, z których większość została usunięta tylko przez Google w ciągu ostatnich 2 tygodni.
źródło
Tak, Google oczywiście do pewnego stopnia buforuje plik robots.txt - nie pobierze go za każdym razem, gdy chce przeglądać stronę. Jak długo to buforuje, nie wiem. Jeśli jednak masz ustawiony długi nagłówek wygasający, Googlebot może pozostawić to dłużej, aby sprawdzić plik.
Kolejnym problemem może być źle skonfigurowany plik. W Narzędziach dla webmasterów, które sugeruje Danivovich, znajduje się kontroler robots.txt . Powie ci, które typy stron są zablokowane i które są w porządku.
źródło
Dokumentacja Google stwierdza , że zwykle będą buforować plik robots.txt przez jeden dzień, ale mogą go używać dłużej, jeśli wystąpią błędy podczas próby jego odświeżenia.
źródło
Tak. Mówią, że zazwyczaj aktualizują go raz dziennie, ale niektórzy sugerują, że mogą to sprawdzić po określonej liczbie odsłon (100?), Więc częściej odwiedzane są witryny.
Zobacz /webmasters//a/29946 i wideo udostępnione przez @DisgruntedGoat powyżej http://youtube.com/watch?v=I2giR-WKUfY .
źródło
Z tego, co widzę w dostępnej dla użytkownika pamięci podręcznej, którą robią, musisz wpisać adres URL pliku robots.txt w wyszukiwarce Google, a następnie kliknąć małą zieloną strzałkę rozwijaną i kliknąć „buforowane” (patrz zdjęcie poniżej) da ci to najnowszą wersję tej strony z serwerów Googles.
źródło
Możesz poprosić o jego usunięcie za pomocą narzędzia do usuwania adresów URL Google .
źródło