Zapobiegaj wyświetlaniu map witryn XML w wynikach wyszukiwania Google

23

Jak zapobiec wyświetlaniu moich plików map witryn XML w wynikach wyszukiwania Google, takich jak wynik site:zapytania:

mapa witryny w wynikach wyszukiwania

Nie rozumiem, dlaczego Google miałoby na początku wyświetlać pliki map witryn w wynikach wyszukiwania. Te pliki nie są przeznaczone do spożycia przez ludzi.

Google musi być w stanie go zaindeksować, aby móc go przetworzyć, więc nie mogę tego zabronić w pliku robots.txt . Po prostu nie chcę, aby po przetworzeniu umieściły go w wynikach wyszukiwania.

Stephen Ostermiller
źródło
1
Huh Ciekawy. Jedyną myślą, jaką mam, jest to, czy masz link do niej w swojej witrynie lub pojawia się w pliku mapy witryny. Nie jestem również pewien, czy odwołujesz się do tego w pliku robots.txt, jeśli może to mieć znaczenie. Nie sądzę, tylko coś do rozważenia. Dostarczam mapę witryny tylko za pośrednictwem Google WMT i nie widziałem tego problemu - przynajmniej jeszcze nie. Rozumiem, że nie chcę upubliczniać mapy witryny. Nie chcę, żeby moje były publiczne. Zbyt wielu hakerów / skrobaków.
closetnoc
3
W tej konkretnej witrynie /sitemap.xmlwymieniłem w pliku robots.txt, a następnie linki do innego zestawu innych map witryn, takich jak /sitemap-123.xmli /sitemap-124.xml. Regeneruję mapy witryn codziennie, a liczby zmieniają się codziennie. Ten, który jest indeksowany, jest dość stary. Nigdzie na mojej stronie nie prowadzę do niego linku, ale możliwe, że jakaś inna strona ma gdzieś link do niego.
Stephen Ostermiller
1
Jeśli nie jest używany, upewnij się, że został usunięty, a następnie wyklucz go z pliku robots.txt, aby dość szybko spadł z SERP. Co dziwne, usuwanie adresów URL w Google WMT trwa wiecznie (dla mnie miesiące), podczas gdy plik robots.txt jest dość szybki.
closetnoc
1
Czy przesłałeś mapę witryny XML na swoje konto GWMT?
Oleg
3
Plik mapy witryny nadal istniał do dziś. Usunąłem go, a teraz przekierowuje do. /sitemap.xml Zakładam, że ta konkretna mapa witryny wypada teraz z indeksu. Chciałbym również uniemożliwić Google pokazywanie ich użytkownikom w przyszłości.
Stephen Ostermiller

Odpowiedzi:

18

Google indeksuje mapy witryn XML (jak każdy plik XML). Jeśli Google zna adres URL i zwraca prawidłową odpowiedź, wówczas przekaże reguły włączenia Google i może zostać zindeksowane. Osobiście przesyłam mapę witryny tylko za pośrednictwem GWT i dołączam Sitemap:referencję do pliku robots.txt, a to z pewnością wystarczy, aby ją zindeksować.

Zalecaną metodą zapobiegania indeksowaniu tych plików przez Google jest dołączenie X-Robots-Tagnagłówka odpowiedzi HTTP podczas wyświetlania mapy witryny XML. Na przykład:

X-Robots-Tag: noindex

Podobnie jak w przypadku tagów META robotów w plikach HTML, X-Robots-Tagnagłówka można użyć do dowolnego typu pliku.

Odniesienie: Wydaje się, że ten dokument (od listopada 2008 r.) Cytuje naszego własnego Johna Muellera (Google) w odniesieniu do użycia X-Robots-Tagodpowiedzi w przypadku map witryn XML.
Tak, Google zaindeksuje i uszereguje plik mapy witryny XML

Aby uzyskać więcej informacji, zobacz przewodnik dla programistów Google:
Metatag robots i specyfikacje nagłówka HTTP X-Robots-Tag

MrWhite
źródło
Gdzie mam napisać X-Robots-Tag: noindexkod nagłówka? Wewnątrz sitemap.xmlczy robots.txt?
xameeramir
1
@student Jest to nagłówek odpowiedzi HTTP, więc należy go ustawić przed podaniem tych plików (jako część nagłówka odpowiedzi HTTP) - nie można go ustawić „wewnątrz”. W zależności od tego, jak serwujesz te pliki, możesz ustawić to w kodzie serwera (np. W PHP header('X-Robots-Tag: noindex',true)) lub, jeśli używasz Apache, to w pliku .htaccess lub konfiguracji serwera. Zobacz odpowiedź Stephena na przykład kod. Zobacz także przewodnik Google dla programistów, do którego prowadzi powyższy link.
MrWhite
8

Odpowiedź MrWhite na temat używania X-Robots-Tag wydaje się być właściwym sposobem na zrobienie tego.

Oto kod, który można w tym celu wykorzystać w plikach konfiguracyjnych .htaccess lub Apache . (Odwołanie: WebmasterWorld - mapy witryn wyświetlane w SERP - jak temu zapobiec? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

W nginx konfiguracja wyglądałaby następująco. (Odnośnik: przykłady Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}
Stephen Ostermiller
źródło
2

Dlaczego to ma znaczenie?

Jeśli faktycznie możesz znaleźć mapę witryny w SERP, masz większe problemy.

Zamiast tego skupiłbym się bardziej na podnoszeniu stron z przydatną treścią. W ten sposób będziesz miał trudności ze znalezieniem mapy witryny. W każdym razie nie to, że by cię to obchodziło.

PS

Prawie każdy trzyma mapy witryn w tym samym miejscu. Więc jeśli ktoś chciałby znaleźć, gdzie go trzymasz, będzie :)

dasickle
źródło
4
Używam Google do wyszukiwania w witrynie i natknąłem się na mapę witryny podczas korzystania z niej. Byłoby bardzo mylące dla moich użytkowników, gdyby kliknęli na to.
Stephen Ostermiller
Jak myślisz, ilu użytkowników używa Google do wyszukiwania w witrynie?
dasickle
3
Wszyscy użytkownicy, którzy wpisują wyszukiwane hasła w polu wyszukiwania u góry moich stron.
Stephen Ostermiller
W tym wypadku. Czy rozważałeś użycie czegoś takiego jak swiftype.com do wyszukiwania w swojej witrynie? Istnieje wiele innych, z których możesz skorzystać. Możesz ponownie zamówić, usunąć i dodać wyniki. Dostajesz także świetne statystyki itp.
dasickle
-6

umieść następujące w pliku robots.txt

User-agent: *
Disallow: /sitemap.xml

zamiast tego prześlij mapę witryny za pomocą narzędzi Google dla webmasterów.

konghou
źródło
1
Czy możesz wyjaśnić swoją logikę - pierwsze zdanie wydaje się być sprzeczne z ostatnim?
MrWhite
5
Czy Google nadal będzie indeksować mapę witryny zablokowaną w pliku robots.txt? Czy masz odniesienie na poparcie tego twierdzenia?
Stephen Ostermiller
4
Jeśli nie zezwalasz na plik sitemap.xml, jestem prawie pewien, że nie będzie już indeksowany. Nie coś, co chciałbyś mieć!
Max
2
Google nie będzie indeksować żadnego dokumentu z niedozwolonym plikiem robots.txt. Zwykle w każdym razie ... zawarte mapy stron.