To jest mój plik robots.txt :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.example.org/sitemap.xml.gz
Ale Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny:
Podczas próby uzyskania dostępu do mapy witryny wystąpił błąd. Upewnij się, że mapa witryny jest zgodna z naszymi wytycznymi i że można uzyskać do niej dostęp w podanej lokalizacji, a następnie przesłać ją ponownie: URL ograniczony przez plik robots.txt .
Czytałem, że Narzędzia Google dla webmasterów buforują plik robots.txt , ale plik został zaktualizowany ponad 36 godzin temu.
Aktualizacja:
Uderzenie w mapę witryny TEST nie powoduje pobrania nowej mapy witryny przez Google. Tylko mapa witryny SUBMIT była w stanie to zrobić. (BTW, nie widzę sensu w „testowej mapie witryny”, chyba że wkleisz tam swoją aktualną mapę witryny - nie pobierze nowej kopii mapy witryny z adresu, o który prosi się przed testem - ale to jest pytanie na kolejny dzień).
Po przesłaniu (zamiast testowania) nowej mapy witryny sytuacja uległa zmianie. Otrzymuję teraz „URL zablokowany przez robots.txt . Mapa witryny zawiera adresy URL zablokowane przez robots.txt ”. dla 44 adresów URL. Mapa witryny zawiera dokładnie 44 adresy URL. Oznacza to, że Google korzysta z nowej mapy witryny, ale nadal przestrzega starej reguły robotów (która utrzymywała wszystko poza limitem) Żaden z 44 adresów URL nie jest w ( /wp-admin/
lub /wp-includes/
jest to niemożliwe, ponieważ plik robots.txt jest oparty na przelot przez tę samą wtyczkę, która tworzy mapę witryny).
Aktualizacja 2:
Gorzej: na stronie wyników wyszukiwania Google opis strony głównej brzmi: „Opis tego wyniku nie jest dostępny z powodu pliku robots.txt tej witryny - dowiedz się więcej”. Wszystkie pozostałe strony mają drobny opis. Nie ma pliku robots.txt LUB robotów meta blokujących indeksowanie strony głównej.
Utknąłem.
Odpowiedzi:
Wygląda na to, że Google prawdopodobnie jeszcze nie zaktualizował pamięci podręcznej pliku robots.txt. Twój obecny plik robots.txt (powyżej) nie wygląda tak, jakby miał blokować adres URL mapy witryny.
Nie trzeba zgadywać. W Narzędziach Google dla webmasterów (GWT) w sekcji „Zdrowie”> „Zablokowane adresy URL” możesz sprawdzić, kiedy plik robots.txt został ostatnio pobrany i czy się powiódł. Poinformuje Cię również o tym, ile adresów URL zostało zablokowanych przez plik robots.txt.
Jak wspomniano w moich komentarzach, GWT ma narzędzie sprawdzające robots.txt („Zdrowie”> „Zablokowane adresy URL”). Dzięki temu możesz natychmiast przetestować zmiany w pliku robots.txt (bez zmiany rzeczywistego pliku). Podaj plik robots.txt w górnym obszarze tekstowym i adresy URL, które chcesz przetestować w dolnym obszarze tekstowym, a dowiesz się, czy zostaną one zablokowane, czy nie.
Buforowanie pliku robots.txt
Źródło: Google Developers - Robots.txt Specyfikacje
źródło
Miałem ten sam problem z moją witryną, ponieważ podczas instalacji WP wybieram opcję Nie śledź za pomocą wyszukiwarki lub tej samej opcji.
Aby rozwiązać ten problem:
www.example.com/robots.txt
z tą opcją -> usuń z pamięci podręcznej, aby zmienić treść lub ...źródło