Aby zapobiec wyświetlaniu pliku PDF (lub dowolnego pliku innego niż HTML) w wynikach wyszukiwania, jedynym sposobem jest użycie X-Robots-Tag
nagłówka odpowiedzi HTTP , np .:
X-Robots-Tag: noindex
Możesz to zrobić, dodając następujący fragment kodu do głównego pliku .htaccess lub pliku httpd.conf witryny:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Pamiętaj, że aby powyższe zadziałało, musisz mieć możliwość zmodyfikowania nagłówków HTTP danego pliku. Dlatego możesz nie być w stanie tego zrobić, na przykład na stronach GitHub .
Zauważ też, że plik robots.txt nie nie zapobiec swoją stronę przed wymienione w wynikach wyszukiwania.
To powstrzymuje bota przed zaindeksowaniem Twojej strony, ale jeśli strona trzecia odsyła do twojego pliku PDF z jego strony internetowej, twoja strona nadal będzie na liście.
Jeśli powstrzymasz bota przed indeksowaniem strony za pomocą robots.txt , nie będzie on miał szansy zobaczyć X-Robots-Tag: noindex
tagu odpowiedzi. Dlatego nigdy nie zabroń strony w pliku robots.txt, jeśli zastosujesz X-Robots-Tag
nagłówek. Więcej informacji można znaleźć w Google Developers: Robots Meta Tag .
Files
dyrektywy obsługującej wyrażenia regularne , powinieneś rozważyć użycieFilesMatch
zamiast niej, jak sugerowano tutaj stackoverflow.com/q/14792381/1262357Można to zrobić na wiele sposobów (ich połączenie jest oczywiście pewnym sposobem na osiągnięcie tego):
1) Użyj pliku robots.txt, aby zablokować pliki przeszukiwaczy wyszukiwarek:
2) Użyj
rel="nofollow"
w linkach do tych plików PDF3) Użyj
x-robots-tag: noindex
nagłówka HTTP, aby zapobiec indeksowaniu ich przez roboty. Umieść ten kod w pliku .htaccess :źródło
x-robots-tag
irobots.txt
nie jest dobrym pomysłem i może powodować indeksowanie treści. Jeśli użyjesz obu,robots.txt
ix-robots-tag: noindex
, robot nigdy nie będzie się czołgał ani nie zobaczy tego,x-robots-tag
ponieważ najpierw honorujerobots.txt
.robots.txt
nie zapobiega indeksowaniu zasobów, a jedynie indeksowaniu, dlatego najlepszym rozwiązaniem jest użyciex-robots-tag
nagłówka, a jednocześnie umożliwienie wyszukiwarkom przeszukiwania i znajdowania tego nagłówka, pozostawiając gorobots.txt
samego.Możesz użyć pliku robots.txt . Możesz przeczytać więcej tutaj .
źródło
Nie jestem pewien, czy ten parapet może przynieść jakąkolwiek wartość, ale ostatnio napotkaliśmy problem polegający na tym, że nasze okno GSA nie chce indeksować pliku PDF.
Pomoc Google pracowała nad problemem, a ich odpowiedź jest taka, że jest on związany z faktem, że ten dokument PDF ma niestandardowy zestaw właściwości (Plik -> Właściwości dokumentu -> Niestandardowy (karta))
co uniemożliwiło jej prawidłowe indeksowanie przez GSA.
Jeśli masz dostęp do dokumentu i możesz modyfikować jego właściwości, może to działać ... na wynajem dla GSA.
źródło
Jeśli instancje programistyczne obsługiwane przez Nginx pojawiają się w wynikach wyszukiwania Google, istnieje szybki i łatwy sposób, aby zapobiec indeksowaniu Twojej witryny przez wyszukiwarki. Dodaj następujący wiersz do bloku lokalizacji pliku konfiguracyjnego wirtualnego hosta dla bloku, który chcesz zapobiec przeszukiwaniu.
źródło
Możesz użyć pliku robots.txt. Wyszukiwarki, które honorują ten plik, nie będą indeksować pliku PDF. Wystarczy użyć polecenia, aby zabronić indeksowania pliku i wskazać folder lub plik PDF, który nie ma być indeksowany przez wyszukiwarki.
źródło