Jak mogę skłonić Google do indeksowania moich dokumentów PDF?

14

Mamy problemy z zaindeksowaniem przez Google plików PDF w naszej witrynie. Istnieje około 50 plików PDF i zakres rozmiarów od 20 KB do nieco poniżej dwóch megabajtów. Nie są chronione, można je czytać anonimowo, a wewnątrz programu PDF Reader można przeszukiwać dokument.

Są one wymienione w pliku SiteMap.xml. Mogę nawet spojrzeć na dzienniki IIS i zobaczyć, jak Googlebot czyta pliki PDF, ale oprócz pięciu nigdy nie są one uwzględniane w wynikach wyszukiwania.

Jeśli zrobię filetye: pdf, pojawi się tylko pięć plików PDF. Jeśli szukam tekstu, który wiem, że znajduje się w pliku PDF, pliki PDF nigdy się nie wyświetlają (z wyjątkiem pięciu, które są indeksowane).

Czy ktoś ma pojęcie, dlaczego ponad 45+ dokumentów PDF nie jest uwzględnionych w indeksie, nawet jeśli znajdują się w mapie witryny i Googlebot je czyta?

danlefree
źródło
Czy określasz typ zawartości dla Google?
Chris Ballance

Odpowiedzi:

4

czy wszystkie pliki PDF znajdują się w tym samym miejscu? Kiedyś miałem problem, że jedna z moich lokalizacji pdf była w folderze, który został wykluczony przez robots.txt. Prześlij mapę witryny bezpośrednio na stronę narzędziową google-webmaster, a możesz uzyskać cenne informacje o tym, dlaczego nie pojawiają się pliki pdf. w moim przypadku Google powiedział mi „hej, te 54 dokumenty pdf znajdują się w mapie witryny, ale z powodu ograniczeń pliku robots.txt nie możemy ich indeksować”. więc to było bardzo pomocne. ale pamiętaj, co mówi komentator, wyświetlenie tych informacji może chwilę potrwać.

Narzędzia Google dla webmasterów: https://www.google.com/webmasters/tools

markus
źródło
Dodam tylko, że Narzędzia Google dla webmasterów nie podają wszystkich informacji w czasie rzeczywistym. Nadal jest to jednak istotny zasób.
Liam,
Nie, pliki PDF znajdują się w kilku różnych miejscach na stronie. Sprawdziłem i żaden z nich nie jest blokowany przez robots.txt. Korzystam z Narzędzi dla webmasterów i przesyłam mapy witryn i będę kontynuować, aby to zrobić. Dziękuję za opinie. Jim
1

Pomiędzy początkowym czytaniem treści przez Google a pojawieniem się w indeksie może być dość opóźniona. Niedawno ponownie uruchomiliśmy witrynę, przesyłając mapy witryn do Google przy uruchomieniu, a pojawienie się nowych stron w wynikach wyszukiwania zajęło około 3 tygodni.

Jak dawno przesłałeś te pliki PDF za pomocą mapy witryny?

(z wyjątkiem pięciu, które są indeksowane)

Wygląda na to, że Twoje pliki PDF są indeksowane, ale zajmuje to trochę czasu. Zakładając, że nie ma różnicy w sposobie generowania nieindeksowanych plików PDF, podejrzewam, że aktualizacja zajmuje tylko chwilę.

Krótko mówiąc, jednym z przydatnych narzędzi, na które polecam się zarejestrować, jest Google Webmaster - pokazuje szybkość indeksowania, problemy z witryną, mapy witryn i indeksowanie w ciągu około jednego dnia od uruchomienia robota Googlebota. Może to zaoszczędzić trochę czasu podczas przeglądania dzienników IIS.

ConroyP
źródło
Minęły około czterech tygodni, odkąd po raz pierwszy przesłaliśmy naszą mapę witryny. Właśnie zauważyłem, że ostatniej nocy indeksowali jeszcze cztery; więc może muszę tylko czekać :)
Kiedy ponownie uruchomiłeś witrynę, jeśli minęły 3 tygodnie, zanim nowe strony zaczęły pojawiać się w wynikach wyszukiwania, czy to nie znaczyło, że przez 3 tygodnie wyszukiwanie zwróciło wyniki na stronach, które już nie istniały w Twojej witrynie? czy to nie spowodowało wielu warunków „nie znaleziono strony”?
W naszej sytuacji ponowne uruchomienie rozpoczęło się wraz z uruchomieniem nowej sekcji, stare linki nadal działały - 3 tygodnie były czasem, kiedy nowa sekcja zaczęła się pojawiać. Losowy czas oczekiwania może być trochę frustrujący w porządku!
ConroyP
0

Czy twoje pliki PDF są skanowane OCR, aby tekst był możliwy do wybrania i wyszukiwania? Czy pliki PDF są skanowane bez OCR, w którym to przypadku tekst zostanie zapisany jako duży obraz? Jeśli plik PDF to wszystkie obrazy, nie sądzę, że Google może go jeszcze zindeksować. A może Google znalazł już Twoje strony?


źródło