Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny

To jest mój plik robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Ale Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny:

Podczas próby uzyskania dostępu do mapy witryny wystąpił błąd. Upewnij się, że mapa witryny jest zgodna z naszymi wytycznymi i że można uzyskać do niej dostęp w podanej lokalizacji, a następnie przesłać ją ponownie: URL ograniczony przez plik robots.txt .

Czytałem, że Narzędzia Google dla webmasterów buforują plik robots.txt , ale plik został zaktualizowany ponad 36 godzin temu.

Aktualizacja:

Uderzenie w mapę witryny TEST nie powoduje pobrania nowej mapy witryny przez Google. Tylko mapa witryny SUBMIT była w stanie to zrobić. (BTW, nie widzę sensu w „testowej mapie witryny”, chyba że wkleisz tam swoją aktualną mapę witryny - nie pobierze nowej kopii mapy witryny z adresu, o który prosi się przed testem - ale to jest pytanie na kolejny dzień).

Po przesłaniu (zamiast testowania) nowej mapy witryny sytuacja uległa zmianie. Otrzymuję teraz „URL zablokowany przez robots.txt . Mapa witryny zawiera adresy URL zablokowane przez robots.txt ”. dla 44 adresów URL. Mapa witryny zawiera dokładnie 44 adresy URL. Oznacza to, że Google korzysta z nowej mapy witryny, ale nadal przestrzega starej reguły robotów (która utrzymywała wszystko poza limitem) Żaden z 44 adresów URL nie jest w ( /wp-admin/lub /wp-includes/jest to niemożliwe, ponieważ plik robots.txt jest oparty na przelot przez tę samą wtyczkę, która tworzy mapę witryny).

Aktualizacja 2:

Gorzej: na stronie wyników wyszukiwania Google opis strony głównej brzmi: „Opis tego wyniku nie jest dostępny z powodu pliku robots.txt tej witryny - dowiedz się więcej”. Wszystkie pozostałe strony mają drobny opis. Nie ma pliku robots.txt LUB robotów meta blokujących indeksowanie strony głównej.

Utknąłem.

google-search-console robots.txt web-crawlers Gaia
źródło

W Narzędziach Google dla webmasterów> Zdrowie> Zablokowane adresy URL możesz natychmiast sprawdzić, czy plik robots.txt zablokuje adres URL mapy witryny (lub dowolny inny adres URL, który chcesz przetestować). Wygląda na to, że bieżący plik robots.txt nie powinien blokować mapy witryny, ale informujesz, że została zaktualizowana. Czy poprzednia wersja pliku robots.txt blokowała to?

MrWhite

Tak, poprzednia wersja została zablokowana. Wydaje mi się, że Google po prostu nie zaktualizował swojej pamięci podręcznej ...

Gaia,

Mam dokładnie ten sam problem. Moja pamięć podręczna robots.txt pochodzi z 23 kwietnia tego roku, dziś jest 25 kwietnia, a pamięć podręczna jest wciąż stara. Nie mam czasu na czekanie, muszę googleboot teraz zaindeksować moją stronę (to jest witryna firmy), ale wygląda na to, że nic nie mogę zrobić, po prostu poczekaj, nie wiedząc, jak długo. To takie frustrujące!

Odpowiedzi:

Wygląda na to, że Google prawdopodobnie jeszcze nie zaktualizował pamięci podręcznej pliku robots.txt. Twój obecny plik robots.txt (powyżej) nie wygląda tak, jakby miał blokować adres URL mapy witryny.

Myślę, że Google po prostu nie zaktualizował swojej pamięci podręcznej.

Nie trzeba zgadywać. W Narzędziach Google dla webmasterów (GWT) w sekcji „Zdrowie”> „Zablokowane adresy URL” możesz sprawdzić, kiedy plik robots.txt został ostatnio pobrany i czy się powiódł. Poinformuje Cię również o tym, ile adresów URL zostało zablokowanych przez plik robots.txt.

Dokumentacja robots.txt w Narzędziach Google dla webmasterów

Jak wspomniano w moich komentarzach, GWT ma narzędzie sprawdzające robots.txt („Zdrowie”> „Zablokowane adresy URL”). Dzięki temu możesz natychmiast przetestować zmiany w pliku robots.txt (bez zmiany rzeczywistego pliku). Podaj plik robots.txt w górnym obszarze tekstowym i adresy URL, które chcesz przetestować w dolnym obszarze tekstowym, a dowiesz się, czy zostaną one zablokowane, czy nie.

Buforowanie pliku robots.txt

Żądanie robots.txt jest zwykle buforowane przez maksymalnie jeden dzień, ale może być buforowane dłużej w sytuacjach, w których odświeżanie wersji buforowanej nie jest możliwe (na przykład z powodu przekroczenia limitu czasu lub błędów 5xx). Odpowiedź z pamięci podręcznej może być współdzielona przez różne roboty. Google może wydłużyć lub skrócić żywotność pamięci podręcznej na podstawie nagłówków HTTP max-age Cache-Control.

Źródło: Google Developers - Robots.txt Specyfikacje

MrWhite
źródło

Czy tak może być 24 godziny później?

Gaia,

Jaka jest data „pobrania” zgłoszona w Narzędziach dla webmasterów? Dzięki temu dowiesz się, czy nadal tak jest . Jak pokazano na powyższym zrzucie ekranu (z jednej z moich stron), plik robots.txt został ostatnio pobrany w dniu „3 września 2012 r.” (3 dni temu). Ale w moim przypadku nie ma potrzeby ponownego pobierania pliku, ponieważ nic się nie zmieniło (nagłówek Ostatnia modyfikacja powinien być taki sam). Częstotliwość pobierania pliku robots.txt przez Google zależy od nagłówków wygasających i ostatnio zmodyfikowanych ustawionych przez serwer.

MrWhite

Pobrano 22 godziny temu i wygasa nagłówek mówi +24 godz. Spróbuję ponownie za kilka godzin, należy to rozwiązać!

Gaia,

To nie zrobiło tego. Google wykorzystuje nową mapę witryny, ale jest jeszcze za rządów starego robots.txt (która utrzymuje wszystko poza granice)

Gaia

„To nie zrobiło tego” - czy Google nie zaktualizował jeszcze swojej pamięci podręcznej pliku robots.txt? Chociaż twierdzisz, że zmieniłeś plik ponad 36 godzin temu i został zgłoszony jako pobrany 22 godziny temu ?! Co widzisz po kliknięciu łącza do pliku robots.txt?

MrWhite

Miałem ten sam problem z moją witryną, ponieważ podczas instalacji WP wybieram opcję Nie śledź za pomocą wyszukiwarki lub tej samej opcji.

Aby rozwiązać ten problem:

przejdź do Narzędzi dla webmasterów indeksuj usuń adres URL i prześlij swoją www.example.com/robots.txtz tą opcją -> usuń z pamięci podręcznej, aby zmienić treść lub ...
Poczekaj minutę
ponownie wprowadź adres URL mapy witryny
koniec

Mohammad
źródło