Czy podgląd Google przestrzega pliku Robots.txt?

11

Ponieważ na pewno wygląda tak. W przypadku moich witryn nie zezwalamy na katalog obrazów, a w podglądzie brakuje zdjęć, co sprawia, że ​​strona wygląda na nieprzyjemną.

Czy tak jest w przypadku i czy istnieje sposób, aby tylko bot podglądu miał dostęp do obrazów przy użyciu pliku robots.txt?

EDYCJA: Wygląda na to, że podglądy są generowane zarówno przez zwykłego Google Bot, jak i przez bota w locie Google Web Preview, jak wspomniano (krótko) na blogu centralnym dla webmasterów .

Korzystając z witryny: wyszukiwania i mojego oprogramowania do monitorowania, mogłem zobaczyć, kiedy bot trafił na moją stronę, a kiedy to się stało, obrazy pokazały się dobrze w podglądzie. Domyślam się, że normalny przeszukiwacz ignoruje obrazy w pliku robots.txt, ale przeszukiwacz podglądu i tak pobiera obrazy.

Ta implementacja wydaje się trochę niewygodna, ponieważ moje opcje wydają się:

  1. zezwól botowi Google na indeksowanie moich zdjęć (czego nie chcę robić)
  2. użyj tagu nosnippet, który blokuje podgląd, ale także fragmenty kodu (których nie chcę robić)
  3. Niech pojawią się podejrzane podglądy, które mogą negatywnie wpłynąć na kliknięcia
plntxt
źródło
Jeśli jest to tylko kwestia braku indeksowania obrazów, możesz zezwolić na indeksowanie, ale możesz wyświetlać obrazy z nagłówkiem HTTP x-robots-tag z „noindex”.
John Mueller
@John Mueller Wygląda na to, że to odpowiedź. Dlaczego nie opublikować go w sekcji odpowiedzi?
plntxt

Odpowiedzi:

3

Myślę, że John Mueller miał rację w komentarzach.

Jeśli jest to tylko kwestia braku indeksowania obrazów, możesz zezwolić na indeksowanie, ale wyświetlać obrazy z nagłówkiem HTTP tagu x-robots-tag z „noindex”

Nie wiedziałem, że możesz zezwolić Google na indeksowanie treści bez indeksowania. Umieściłem jego technikę na miejscu i czekam, aż zacznę się czołgać, aby sprawdzić, czy zadziała.

Za kilka dni zaakceptuję tę odpowiedź, chyba że John chce dodać swoje komentarze do sekcji odpowiedzi, aby mógł zdobyć przedstawiciela.

plntxt
źródło
Przepraszam za komentarz-odpowiedź :). Należy pamiętać, że ten proces nie jest w tej chwili tak szybki. Zmiana stanu indeksowania obrazów jest na ogół wolniejsza niż wyszukiwanie w Internecie, a aktualizacja obrazów podglądu może również potrwać znacznie dłużej niż aktualizacja zwykłej zawartości wyszukiwania w Internecie (strona w pamięci podręcznej, tytuł, fragment kodu). W praktyce wyobrażam sobie, że zajmie to kilka tygodni, aby zobaczyć wszelkie zmiany - więc bądź cierpliwy :).
John Mueller
Cierpliwość jest kluczem. Kilka tygodni po zmianie niektóre zdjęcia są teraz widoczne, a wciąż ich brakuje. Ale to wydaje się być rozwiązaniem mojego problemu.
plntxt,
2

Ponieważ przeważająca część podglądu jest wykonywana przez robota indeksującego bota Google, zablokowanie indeksowania części witryny wpłynie na podgląd ...

Dlaczego nie chcesz pozwolić robotowi Google na indeksowanie twoich zdjęć?

Pascal Qyy
źródło
2
Spędzamy dużo czasu i pieniędzy inwestując w fotografię produktów i wolelibyśmy, aby nasze zdjęcia nie były wyszukiwane, ponieważ osoby korzystające z wyszukiwania zdjęć zwykle szukają obrazu i nie chcą kupować produktu. Gdyby nasze obrazy znajdowały się w indeksie, łatwiej byłoby je ukraść konkurentom.
plntxt
1
Możesz spróbować oznaczyć swoje zdjęcia i / lub steganografię prawami autorskimi wewnątrz i / lub filtrować wyświetlanie przez odesłanie ...
Pascal Qyy
1
@SOL. Qyy Albo mógłbym zapłacić nieskończoną liczbę małp za skanowanie sieci w poszukiwaniu obrazów chronionych prawem autorskim.
plntxt
@Jim: Albo możesz przechowywać zdjęcia na papierze, i nigdy, nigdy nie umieszczaj ich w Internecie ... ^^
Pascal Qyy
1
Dobra uwaga - nic nie może całkowicie chronić twoich zdjęć, ale naprawdę wolałbym nie mieć ich w indeksie Google. Nie przepadam za znakami wodnymi, a najbardziej opłacalnym sposobem na zmniejszenie liczby naszych zdjęć w innym miejscu jest trzymanie ich poza indeksem.
plntxt
2

Poniżej przedstawiono rozwiązanie techniczne, które może, ale nie musi, dotyczyć tylko Twojej witryny.

Możliwe (nawet prawdopodobne), że Google wyjdzie na to z kilkoma wskazówkami w metadanych lub pliku robots.txt, ale do tego czasu ...


Krok 1.

Utwórz usługę / serwlet przekierowania dla obrazów na pierwszej stronie.

Tj. URL taki jak

/frontpageimages/[image name]

powoduje przekierowanie po stronie serwera

/images/[image name]

Krok 2.

Wszystkie linki do obrazów na stronie głównej (i tylko na stronie głównej) należy przepisać, aby przejść przez usługę przekierowywania od kroku 1 zamiast bezpośrednio do obrazu.

Krok 3.

Upewnij się, że plik robots.txt pozwala robotowi Google na indeksowanie /frontpageimages/


Powinno to zapewnić, że Google może zaindeksować wszelkie obrazy napotkane na stronie głównej, pozostawiając je same na innych stronach.

Chociaż usługa przekierowania może (teoretycznie) być używana do indeksowania wszystkich zdjęć bez technicznego naruszenia pliku robots.txt, nie jest to coś, co robią dobrze zachowujące się roboty (takie jak googlebot). A źle zachowujące się roboty nie będą się martwić o plik robots.txt.

Kris
źródło
Kto chce tylko, aby ich strona główna wyświetlała podgląd? Wiem, że chcę, aby każda strona wyświetlała dobry podgląd. Jeśli zrobisz to dla każdej strony, w gruncie rzeczy negujesz cel blokowania obrazów.
John Conde
@John Masz rację. W takim przypadku albo chcesz, aby Google Cię zindeksował, albo nie.
Kris,