Jeśli uważasz, że nadmiernie indeksują Twoją witrynę (być może nawet brakuje głębszej zawartości), powinieneś upewnić się, że nagłówki HTTP zwracają dobre wartości dla rzeczy takich jak czas „ostatniej modyfikacji” itp. Może być tak, że Googlebot przecenia, jak bardzo twoja strona się zmienia. . Jako bonus twoja strona będzie się lepiej zachowywała pod względem buforowania (czy to w oparciu o proxy, czy przeglądarkę), dzięki czemu poczujesz się trochę szybciej.
Dobrze byłoby sprawdzić, które adresy URL są indeksowane (przeglądając dzienniki serwera). Jeśli wielokrotnie przeszukują ten sam adres URL, na pewno masz problem. Popularnym wariantem jest to, że masz stronę, która może być wyświetlana na wiele różnych sposobów za pomocą zmiennych żądania. Googlbot może próbować zaindeksować każdą możliwą kombinację tych zmiennych.
Przykładem, który napotkałem jako operator indeksowania, była strona z listą dwudziestu nagłówków, których dowolną kombinację można rozwinąć. Zasadniczo strona miała 2 ^ 20 różnych adresów URL!
Upewnij się, że Googlebot nie blokuje się w trakcie przeszukiwania zasadniczo tej samej strony w kółko przy różnych trywialnie różnych parametrach (widziałem, jak to się w to wplątało)
Wydaje mi się, że Google zmienia szybkość indeksowania wraz z wiekiem witryny, popularnością (linki do Twojej witryny), znacznikami i nagłówkiem, odpowiednimi mapami witryny itp. Jakiś czas temu zmieniły też swój robot, dzięki czemu treść może teraz pojawiać się w wynikach wyszukiwania znacznie szybciej niż kiedyś (co najmniej 2 tygodnie przed zmianą).
Więc kiedy opublikowałem mojego bloga 2 lata temu, indeksowanie całej treści zajęło Googleowi miesiące, a tygodnie - aby indeksować nowe posty. Teraz widzę dowolny post w wynikach wyszukiwania tego samego dnia, w którym go opublikowałem.
To proste, Google nie lubi nowych witryn, ale szanuje starszych.
źródło