Roboty odrzucone przez domenę są nadal wymienione w wynikach wyszukiwania

9

Tak więc we wszystkich naszych witrynach, które nie są wyszukiwane, zastosowaliśmy plik robots.txt (zgodnie z instrukcją Jak wykluczyć witrynę z wyników wyszukiwania Google w czasie rzeczywistym? Lub inne podobne pytanie).

Jeśli jednak wyszukiwane hasła są wystarczająco szczegółowe, samą domenę można znaleźć w wynikach. Przykład tego można znaleźć tutaj . Jak widać z linku, można znaleźć samą domenę (zawartość nie jest buforowana, ale domena jest na liście). Dodatkowo, wyszukiwanie site:hyundaidigitalmarketing.compowinno zawierać 3 wyniki. Sprawdzanie linków zwrotnych również zapewnia kilka, ale oczywiście nie mogę im zapobiec (linkowanie jest dozwolone w kontekście) ani kontrolować, jak są one obsługiwane (nie mogę powiedzieć hostowi, aby dodał nofollow, noindex).

Wiem, że to poważny przypadek, jednak klienci moich firm właśnie to robią. W rzeczywistości nasze domeny są całkiem dobre, więc nawet pozornie arbitralne wyszukiwania przynoszą trafne wyniki. Teraz muszę napisać raport, w jaki sposób / dlaczego tak się dzieje.

Zwracam się więc do cudownej sieci Stack Exchange, aby pomóc mi zrozumieć, co brakuje mi, lub zrozumieć, co się dzieje. Linki do artykułów branżowych są niezwykle pomocne, ale wszystko, co możesz dać, jest oczywiście wspaniałe. Zamierzam zaoferować nagrody najlepiej, jak potrafię, aby była to odpowiedź, do której można się zwrócić w przyszłości.

Edycja: Otworzyłem nagrodę za to pytanie w nadziei, że otrzymam więcej odpowiedzi na to pytanie. Poniżej podałem również wyniki moich badań.

Kevin Peno
źródło

Odpowiedzi:

5

Będę musiał poszukać źródła tych informacji, ale najwyraźniej plik robots.txt niekoniecznie uniemożliwi indeksowanie strony. Ale najwyraźniej nagłówek HTTP x-robots-tag działa.

Jeśli używasz Apache, możesz masowo blokować strony za pomocą tego wiersza w pliku .htaccess:

Header set x-robots-tag: noindex

Spróbuj i zobacz, co się stanie.

Edytować

(Znalazłem źródło . Nie to, które pamiętam, ale działa).

John Conde
źródło
Witam i dziękuję za odpowiedź. Czym różni się to od metatagu robots już zaimplementowanego w danych wyjściowych HTML witryny użytej jako przykład powyżej? O ile mogę to stwierdzić, służy tylko jako zamiennik, więc nie musisz umieszczać go na każdej stronie.
Kevin Peno,
@Kevin, Powinny być takie same pod względem skuteczności. To byłoby po prostu łatwiejsze do zarządzania, jak powiedziałeś.
John Conde
4

Myślę, że Matt Cutts mówił o tym. Jeśli moja pamięć jest poprawna, miało to związek z linkowaniem. Oto więcej: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=pl

Możesz je usunąć za pomocą narzędzia do usuwania Google.

Joe
źródło
Możesz zobaczyć je wszystkie za pomocą: site: gmpackageguide.com Nie ma wielu adresów URL. Zakładam, że były w indeksie, zanim roboty zostały niedozwolone. Po prostu je usunę.
Joe,
W przyszłości poleciłbym osobom zajmującym się projektowaniem stron internetowych, aby zawsze nie zawierały indeksu ani nie śledziły sekcji nagłówka strony. Podejrzewam, że CMS, którego używasz, może to zrobić.
Joe,
@Joe - zgadzam się, ale polecam noindex, follow, aby każdy PageRank był dystrybuowany z linków zwrotnych, które mogą wystąpić.
Mike Hudson,
@Joe & @Mike, dzięki za informacje. Jednak weź stronę: hyundaidigitalmarketing.com. Sam uruchomiłem tę stronę rok temu. Zawiera zarówno plik robots.txt, jak i nagłówek meta. Jednak, jak widać formularz przeprowadzający wyszukiwanie w Google site:hyundaidigitalmarketing.comza pomocą haseł lub haseł hyundai digital marketing, sama domena będzie nadal pojawiać się jako pierwszy i najlepszy wynik. Muszę temu zapobiec.
Kevin Peno,
Ponadto wyszukiwanie links:hyundaidigitalmarketing.compokazuje linki z powrotem. Oczywiście nie mogę zapobiec ani kontrolować linków formatujących ORAZ mogą one być prawidłowe. Jeśli powoduje to link do strony, muszę zrozumieć, w jaki sposób / dlaczego, aby wyjaśnić to moim przełożonym. Mam nadzieję, że to wyjaśnia moje pytanie nieco lepiej.
Kevin Peno,
3

Na podstawie moich badań na ten temat stwierdziłem, że nie ma w 100% oczywistej metody zapobiegania indeksowaniu i buforowaniu danych, ale możesz podejść bardzo blisko (zakładając, że chcesz poradzić sobie ze zwiększonym ruchem botów). Oto jak zinterpretowałem informacje.

Można by pomyśleć, że plik robots.txt służy do definiowania informacji o robotach w całej witrynie, a do szczegółowych informacji na temat strony używane są metatagi. Myślę, że duch 2 jest dokładnie taki, ale w praktyce tak nie jest.

Nie twórz pliku robots.txt

Działa to ze wszystkich głównych dostawców wyszukiwania, aby zapobiec pojawianiu się treści na SERP, ale nie nie zapobiec indeksowania. Zapobiega to również indeksowaniu stron przez roboty, dlatego też metatagi robotów (patrz poniżej) są również ignorowane. Z tego powodu nie możesz używać 2 razem i dlatego, jeśli chcesz zapobiec indeksowaniu, nie powinieneś używać pliku robots.txt.

Uwaga dodatkowa: Google obsługuje użycie Noindex: /pliku robots.txt, ale jest to nieudokumentowane (kto wie, kiedy się zepsuje) i nie wiadomo, czy to działa dla kogokolwiek innego.

Użyj nagłówków HTTP lub tagów HTML META, aby wszystko zapobiec

W przeciwieństwie do pliku robots.txt, metatag robots (i nagłówek HTTP) jest szeroko obsługiwany i, co zaskakujące, bogaty w funkcje. Został zaprojektowany do ustawienia na każdej stronie, ale niedawne przyjęcie X-Robots-Tagnagłówka ułatwia ustawienie w całej witrynie. Jedyną wadą tej metody jest to, że boty będą indeksować Twoją witrynę. Można to ograniczyć, używając nofollow, ale nie wszystkie boty naprawdę szanują nofollow.

Znalazłem mnóstwo informacji w tym nieaktualnym wpisie na blogu . Pierwszą wersją było 2007, ale ponieważ wiele informacji na jego temat to nowsze funkcje, od tego czasu wydaje się, że jest regularnie aktualizowana.

Podsumowując, powinieneś wysłać nagłówek HTTP z X-Robots-Tag: noindex,nofollow,noodp,noydir. Oto podział, dlaczego:

  • nofollowpowinien ograniczyć liczbę stron zaindeksowanych w Twojej witrynie, ograniczając ruch botów. * noindexmówi silnikom, aby nie indeksowały strony.
  • Teraz możesz założyć, że to noindexmoże wystarczyć. Przekonałem się jednak, że nawet jeśli uważasz, że noindexTwoja witryna może być indeksowana z powodu linkowania do niej innych witryn. Najlepszy sposób, aby zapobiec typowym linkom do stron od Y! Directory ( noydir) i Open Directory ( noodp).
  • Użycie nagłówka HTTP stosuje również dane robotów do plików, obrazów i innych plików innych niż HTML! TAK!

Będzie to działać w 99% przypadków. Pamiętaj jednak, że w niektórych przypadkach nadal istnieje możliwość indeksowania przez niektórych dostawców. Google twierdzi, że w pełni szanuje noindex, ale mam swoje podejrzenia.

Wreszcie, jeśli zostaniesz zaindeksowany lub już zostałeś zindeksowany, jedynym sposobem na usunięcie zindeksowanych informacji jest skorzystanie z różnych środków od każdego dostawcy, aby zażądać usunięcia witryny / adresu URL. Oczywiście oznacza to, że prawdopodobnie będziesz chciał monitorować witryny / strony za pomocą czegoś takiego jak Alerty Google (dzięki @Joe).

Kevin Peno
źródło
3

Myślę, że twoim podstawowym problemem są tylne linki do strony, ponieważ dają one wyszukiwarkom punkt wejścia na stronę i informują o tym. Więc chociaż nie wyświetlą opisu witryny, mogą wyświetlić adres URL, jeśli uznają, że najlepiej pasuje do wyniku.

Przeczytaj ten artykuł powiązany z tym, który opublikował @joe: Matt Cutts trzyma google

Kluczem jest:

Jest to całkiem dobry powód: kiedy zaczynałem w Google w 2000 roku, kilka przydatnych stron internetowych (eBay, New York Times, California DMV) miało pliki robots.txt, które zabraniały jakiegokolwiek pobierania stron. Teraz pytam cię, co mamy zwrócić jako wynik wyszukiwania, gdy ktoś wykona zapytanie [california dmv]? Bylibyśmy smutni, gdybyśmy nie zwrócili www.dmv.ca.gov jako pierwszego wyniku. Pamiętaj jednak: w tym momencie nie mogliśmy pobierać stron ze strony www.dmv.ca.gov. Rozwiązaniem było pokazanie nietrawionego linku, gdy mieliśmy wysoki poziom pewności, że jest to poprawny link. Czasami możemy nawet pobrać opis z Open Directory Project, abyśmy mogli przekazać użytkownikom wiele informacji, nawet bez pobierania strony.

Przeprowadzone przez ciebie badania obejmują również sprawy cicho, a odpowiedzi @john i @joe są istotne. Poniżej zamieściłem link, który zawiera dalsze wskazówki na temat blokowania wyszukiwarek. Jedynym sposobem, w jaki mogę całkowicie zablokować witrynę, jest dodanie jakiejś formy ochrony hasłem przed witryną, którą należy ukończyć przed wyświetleniem treści.

Porady SEOMoz dotyczące nie pojawiania się w wyszukiwaniu

Matthew Brookes
źródło
Dziękujemy za dodanie do dyskusji. Ochrona hasłem działa dobrze, aby zapobiec indeksowaniu, ale nie zapobiega indeksowaniu. Ponieważ robots.txt wykonuje dobrą robotę, powstrzymując to, jedyną zaletą ochrony hasłem jest to, że nie pozwoli na to, aby wścibskie oczy je znalazły. Niestety większość treści nie jest wystarczająco wrażliwa, aby można ją było „chronić”, a na pewno nie ostrzega przed tworzonymi przez nią problemami z użytecznością. [cd ...]
Kevin Peno,
Jedną z analogii, które znalazłem najbardziej pomocne w moich badaniach, było porównanie z książkami telefonicznymi. Jeśli wyszukiwarki są książkami telefonicznymi, a ty nie chcesz być na liście, możesz poprosić o nieuwzględnianie ich na liście, a oni powinni to uszanować. Niestety wyszukiwarki działają bardziej podobnie do firm, w których inne firmy sprzedają kontakty, z kolei każdemu, kto chce za to zapłacić / poprosić.
Kevin Peno,
@Kevin rozumiem, co mówisz, niestety nie sądzę, że będzie to możliwe do całkowitego usunięcia przy obecnym działaniu wyszukiwarek. Najlepsze, na co możesz liczyć, to po prostu lista adresów URL w tym przypadku.
Matthew Brookes,
Och, rozumiem to teraz (po badaniach). Proszę również nie zamieszczać mojego komentarza do swojej odpowiedzi w żadnym negatywnym świetle. Doceniam twój dodatek do tematu, po prostu odpowiadałem, aby dodać minusy implementacji takiego rozwiązania, a także dodając, jak sądzę, trochę niepotwierdzonych żartów. : P
Kevin Peno,