Czy mogę wezwać Google do sprawdzenia mojego pliku robots.txt?

11

Czytam odpowiedzi na to pytanie, ale nadal pozostawiają moje pytanie otwarte: Czy Google cache robots.txt?

W Narzędziach Google dla webmasterów nie znalazłem sposobu na ponowne pobranie mojego pliku robots.txt .

Przez jakiś błąd mój plik robots.txt został zastąpiony przez:

User-agent: *
Disallow: /

A teraz cała moja treść została usunięta z wyników wyszukiwania Google.

Oczywiście jestem zainteresowany jak najszybszym poprawieniem tego. Zamieniłem już plik robots.txt , ale nie mogę znaleźć sposobu, aby Google zaktualizował wersję z pamięci podręcznej.

wprowadź opis zdjęcia tutaj

Der Hochstapler
źródło
1
Wyłączenie wszystkich stron w pliku robots.txt zasadniczo nie powinno być wystarczające, aby całkowicie usunąć je z wyników Google, o ile inne witryny nadal prowadzą do nich.
Ilmari Karonen,
Hmm, to trudne. Adresy URL ZenCart wydają się mylić bota robota.txt i zanim się zorientujesz, zablokowałeś adresy URL, których nie chcesz blokować. Z mojego doświadczenia wynika, że ​​lepiej Ci będzie bez robots.txt, ale po prostu utrzymując czystą stronę internetową. Straciłem wiele miejsc w rankingu z powodu tego błędu robots.txt blokującego prawidłowe adresy URL. Ponieważ ZenCart używa dynamicznych adresów URL, wydaje się, że myli robota internetowego robots.txt, co powoduje blokowanie adresów URL, których nie spodziewasz się zablokować. Nie jestem pewien, czy ma to związek z wyłączeniem kategorii w ZenCart, a następnie przeniesieniem produktów z tej kategorii

Odpowiedzi:

10

Nie możesz zmusić ich do ponownego pobrania pliku robots.txt, kiedy chcesz. Google ponownie zaindeksuje je i wykorzysta nowe dane, ilekroć uzna to za odpowiednie dla Twojej witryny. Zwykle indeksują go regularnie, więc nie spodziewałbym się, że znalezienie zaktualizowanego pliku zajmie dużo czasu, a strony zostaną ponownie zaindeksowane i zindeksowane. Pamiętaj, że znalezienie nowego pliku robots.txt może zająć trochę czasu, zanim strony zostaną ponownie zaindeksowane, a jeszcze więcej czasu, zanim pojawią się ponownie w wynikach wyszukiwania Google.

John Conde
źródło
1
Według nich sprawdzają codziennie lub mniej więcej, ale prawdopodobnie częściej sprawdzają, czy witryny są zajęte. Zobacz webmasters.stackexchange.com/a/32949/17430 .
studgeek
1

Ten sam problem napotkałem, gdy www.satyabrata.com16 czerwca otworzyłem nową stronę internetową .

Miałem Disallow: /w moim pliku robots.txt , dokładnie tak jak Oliver. W Narzędziach Google dla webmasterów pojawiła się również wiadomość ostrzegająca o zablokowanych adresach URL.

Problem został rozwiązany wczoraj, 18 czerwca. Wykonałem następujące czynności. Nie jestem pewien, który krok zadziałał.

  1. Zdrowie -> Pobierz jako Google: robots.txt i strona główna. Następnie prześlij do indeksu.
  2. Ustawienia -> Preferowana domena: wyświetlany adres URL jako www.satyabrata.com
  3. Optymalizacja -> Mapy witryn: Dodano mapę witryny XML.

Komunikat ostrzegawczy o zablokowanych adresach URL zniknął, a nowy plik robots.txt jest wyświetlany do pobrania w Narzędziach Google dla webmasterów.

Obecnie mam tylko dwie strony zaindeksowane w Google, stronę główną i plik robots.txt . Mam 10 stron na stronie. Mam nadzieję, że reszta zostanie wkrótce zindeksowana.

Satyabrata Das
źródło
0

Miałem problem polegający na tym, że obrazy zostały przeniesione na osobny serwer CNAME, aw folderze obrazów nałożono disallow. Sposób, w jaki to wyczyściłem, to pobranie pliku robots.txt z Narzędzi dla webmasterów jako strony Google jako narzędzia Google. Gdy tylko powiedział mi, że pobrał i przeczytał plik robots.txt, przesłałem go. To złamało trzymiesięczne embargo na skanowanie obrazów, gdy Google zgłosiło, że czyta plik robots.txt, ale nie zmieniło pająka, aby pasowało do reguł, które zostały zmienione, aby zezwolić na folder obrazów. W ciągu tygodnia obrazy były ponownie indeksowane.

Może być warte spróbowania. Wiadomo, że Google czasami blokuje się i nie może ponownie odczytać pliku.

Fiasco Labs
źródło
Ponownie przeczytali plik około 6 godzin po opublikowaniu. Teraz wszystko wróciło do normy.
Der Hochstapler
Uff! Wróć więc na tor!
Fiasco Labs
Próbowałem poprosić webmasterów o pobranie pliku robots.txt, narzekałem, że został odrzucony przez robots.txt :). Widocznie ta sztuczka nie zadziała, jeśli robots.txt robi pełny blok.
studgeek
To samo tutaj ... Żądanie pliku robots.txt odrzucone przez robots.txt! Hah!
Kasapo
Whelp, jeśli odrzucisz root, to myślę, że jesteś trochę SOL. W moim przypadku był to podfolder, który został odrzucony, więc wymuszenie ponownego przeczytania pliku robots.txt przez dostarczone mechanizmy faktycznie działało.
Fiasco Labs,
-1

W moim przypadku problem polegał na tym, że korzystałem z bezpłatnej usługi DNS o nazwie afraid.org.

(moja darmowa domena zakończyła się w .us.to)

Po przejściu na TLD zaczęło działać.

Stefan Monov
źródło
Nie widzę, co DNS lub posiadanie darmowej strony ma wspólnego z plikiem robots.txt lub poleceniem Google, aby go ponownie pobrać.
Stephen Ostermiller
@StephenOstermiller: Też nie widzę, ale w rzeczywistości pomogło to w moim przypadku.
Stefan Monov,
Pomógł Google sprawdzić twój plik robots.txt?
Stephen Ostermiller
@StephenOstermiller: Tak.
Stefan Monov