Dlaczego Google przestał indeksować strony z naszego pliku sitemap.xml?

18

Widzimy niektóre strony, które istnieją w naszym, sitemap.xmlale niewytłumaczalnie brakuje w indeksie wyszukiwania publicznego Google.

Nie możesz pobrać /superuser//sitemap.xml - chronimy ten plik, ponieważ w przeszłości występowały z nim problemy - ale googlebot może. Za pomocą Google Webmaster Tools zweryfikowaliśmy, że sitemap.xmlplik został dzisiaj usunięty i jest oceniany jako OK bez błędów (zielony znacznik wyboru).

alternatywny tekst

sitemap.xmlZawiera listę ostatnich 50000 pytania na naszej stronie, które zostały zadane. Na przykład to pytanie ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... istnieje sitemap.xmljako ...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Wyszukiwanie „Jak zobaczyć koniec długiego łańcucha dowiązań symbolicznych” daje tylko jeden wynik dla questionhub.com, który usuwa dane (zupełnie inny problem).

Możesz zwiększyć liczbę pytań i dokładnie wyszukać tytuł pytania, a zobaczysz, że ten wzorzec utrzymuje się.

Te adresy URL znajdują się w pliku sitemap.xml, ale nie są wyświetlane w indeksie Google - a jednak pojawiają się w witrynach, które usuwają dane z naszych wspólnych zasobów. Dlaczego miałoby to być?

Michael Pryor
źródło
5
Zawsze możesz pytać na forach centralnych Google dla webmasterów. google.com/support/forum/p/Webmasters?hl=pl
Alex Black
Coś jest zdecydowanie nie tak. To pytanie jest już zaindeksowane w Google, ale powiązane pytanie na superużytkowniku STILL nie pojawia się w indeksie.
Michael Pryor
Jeff może pomyśleć o zapytaniu Matta Cuttsa. Widziałem, jak rozmawiali kilka razy na Twitterze. Zazwyczaj chętnie pomaga.
Virtuosi Media
3
FWIW Obecnie widzimy pewne problemy z indeksowaniem nowych treści w niektórych witrynach. Na naszych forach pomocy pod adresem google.com/support/forum/p/Webmasters/… jest temat. Wydaje się, że dotyczy to wspomnianego adresu URL. Wyobrażam sobie, że problem zostanie wkrótce rozwiązany, ale brak dostępnych ram czasowych naprawy. Dziękuję za cierpliwość.
John Mueller
1
Wygląda na to, że teraz problem został rozwiązany :-). Wypróbowałem kilka nowych pytań ze strony i wszystkie zostały zindeksowane. Woot!
John Mueller

Odpowiedzi:

10

Wygląda na to, że Google miał w tym tygodniu problemy techniczne z indeksowaniem, które brzmią w niezwykły sposób:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Wydaje się, że nikt nie jest odporny na problem z indeksowaniem Google, który wprawia wielu właścicieli w zakłopotanie. Blogi i witryny, duże i małe, nie są indeksowane tak szybko, jak zwykle - jeśli w ogóle są indeksowane.

...

John z Google odpowiedział na wątek na forach dla webmasterów, mówiąc:

Dla jasności problemy z tego wątku, które szczegółowo sprawdziłem, nie wynikają ze zmian w naszych zasadach lub zmianach w naszych algorytmach; są one spowodowane problemem technicznym po naszej stronie, który zostanie jak najszybciej rozwiązany w widoczny sposób (może to jednak potrwać do kilku dni, zanim będą widoczne dla wszystkich witryn)

Jeff Atwood
źródło
7

Google nie składa żadnej oferty ani nie gwarantuje, że strony w mapie witryny zostaną zaindeksowane.

Z mojego doświadczenia wynika, że ​​strona musi być połączona (ze strony jakiegoś organu), aby się wyświetlić. Czy ta strona / pytanie jest powiązane bezpośrednio / pośrednio ze strony o pewnym autorytecie?

Np. Jeśli strona główna superuser.com (która prawdopodobnie zawiera wiele linków) jest bezpośrednio połączona z tym pytaniem lub pośrednio poprzez szereg innych stron, można oczekiwać, że zostanie zindeksowana.

Z Google:

Google nie gwarantuje, że zaindeksujemy lub zindeksujemy wszystkie adresy URL. Jednak wykorzystujemy dane z mapy witryny, aby poznać strukturę Twojej witryny, co pozwoli nam ulepszyć nasz harmonogram robota i wykonać lepszą robotę indeksowania Twojej witryny w przyszłości. W większości przypadków webmasterzy skorzystają z przesłania mapy witryny i w żadnym wypadku nie zostaniesz za to ukarany.

http://www.google.com/support/webmasters/bin/answer.py?hl=pl&answer=156184

Alex Black
źródło
4
Administrator powinien mieć wystarczającą liczbę linków i PR, aby indeksować te strony z mapą witryny lub bez niej. A drobne strony są cały czas wymienione. W rzeczywistości stanowią one większość indeksu. Podejrzewam, że winowajcą jest coś innego.
John Conde
Uzgodniony, strona ma wiele PR i linków. Ale czy jest szansa, że ​​dana strona nie zawiera linków? Jeśli superuser.com (przez przypadek) nie prowadzi do strony, co to oznacza dla Google? mówi, że strona nie jest ważna.
Alex Black
2
Strona została zdecydowanie połączona ze strony głównej i nadal jest połączona z wieloma innymi stronami. Witryny SE są bardzo obciążone krzyżowo.
Kevin Montrose
1
w pewnym momencie wczoraj jednym z moich trafień dla pytania testowego była strona główna superuser.com - z docelowym adresem URL widocznym na niej, nawet w pamięci podręcznej Google! A jednak samo pytanie nie zostało zindeksowane. Bardzo dziwne.
Jeff Atwood
2
absolutnie - kliknij zakładkę HOT na stronie głównej lub zakładkę TYGODNIOWO lub MIESIĘCZNIE. Właśnie tam ..
Jeff Atwood
3

Myślę, że Google może mieć trudności z indeksowaniem twoich stron internetowych, 50.000 to dużo. Tak więc moją sugestią byłoby rozbicie mapy witryny na części w ten sposób

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Jeśli się zepsujesz, będziesz mieć więcej szczęścia w indeksowaniu tych 50 000 adresów URL.

Sitemaps.org wyjaśnienie problemu

Możesz podać wiele plików map witryn, ale każdy podany plik mapy witryny musi mieć nie więcej niż 50 000 adresów URL i nie może być większy niż 10 MB (10 487 760 bajtów). Jeśli chcesz, możesz skompresować pliki mapy witryny za pomocą gzip, aby zmniejszyć wymagania dotyczące przepustowości; jednak plik mapy witryny po rozpakowaniu nie może być większy niż 10 MB. Jeśli chcesz podać więcej niż 50 000 adresów URL, musisz utworzyć wiele plików map witryn.

Jeśli udostępniasz wiele map witryn, należy wymienić każdy plik mapy witryny w pliku indeksu map witryn. Pliki indeksu map witryn nie mogą zawierać więcej niż 50 000 map witryn i nie mogą być większe niż 10 MB (10 487 760 bajtów) i można je skompresować. Możesz mieć więcej niż jeden plik indeksu map witryn. Format XML pliku indeksu map witryn jest bardzo podobny do formatu XML pliku map witryn.

http://sitemaps.org/protocol.php

Sevki
źródło
2
Mapy witryn z 50 000 stron są bardzo popularne. W rzeczywistości ktoś niedawno opublikował zrzut ekranu ze swojego konta webmastera pokazujący, że Google zaindeksował prawie wszystkie 50 000 tych stron. Podejrzewam, że superużytkownik jest bardziej popularny (np. Ma lepszą popularność linków) niż ta inna strona.
John Conde
1
„Do wyświetlenia jest ponad 50 000 adresów URL. To maksymalnie może zawierać jedna mapa witryny”. sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
1
Jeśli masz mapę witryny na każdy dzień, te nigdy się nie zmieniają po zakończeniu dnia, aby mapa witryny nie musiała być ponownie dostępna, mogą indeksować linki, które zostały już zaindeksowane pod kątem zmian, więc Google nie musi przechodzić 50 000 adresów URL dziennie, aby zobaczyć, które są stare, a które nowe.
Sevki
@sevki najstarsze 50 001. pytanie według DANYCH AKTYWNOŚCI (nowe odpowiedzi, zmiany itp. podbijają tę datę) nie będzie w mapie witryny. Pamiętaj, że superużytkownik ma w sumie tylko 55 tys. Pytań.
Jeff Atwood
@Jeff, ale SO.com ma 1.014.782 i 964,782 nie ma w mapie witryny, więc google lub bing nie wiedzą, kiedy zostały zmodyfikowane po raz ostatni. tak czy inaczej, nie chcę być denerwujący, próbując pomóc, wysłałem ci e-maila z kilkoma szczegółami.
Sevki
2

Wygląda na to, że Google twierdzi, że 46 514 przesłanych linków znajduje się w indeksie. Czy może to być problem z (nienawidzę to mówić), ale z rankingiem strony? Witryny zgarniające mogą lepiej krzyżować zadania itp. I zajmować wyższą pozycję. Tylko myśl.

Ta witryna wyszukiwania : superuser.com Wygląda na to, że koniec długiego łańcucha dowiązań symbolicznych również poprawnie pobiera plik sitemap.xml, ale nie zwraca oczekiwanych wyników.

Dustin Senos
źródło
Ta witryna zgarniająca nadaje atrybut superuser.com jako pierwotnemu autorowi (chociaż mogą być bardziej precyzyjni), dlatego Google powinien wiedzieć, że jest oryginalnym autorem treści i dać im pierwszeństwo przed stronami zgarniającymi.
John Conde
@john poprawne, wymagamy podania imienia i nazwiska zgodnie z dokumentacją na blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood
ta mapa witryny z pamięci podręcznej jest „taka, jaka pojawiła się 17 października 2010 05:40:35 GMT”, 4 dni temu w chwili pisania tego, więc nie ma jej wiele. Sprawdziłem na miejscu kilka adresów URL w tej pamięci podręcznej sitemap.xml i istnieją one również jako strony z pytaniami w google.
Jeff Atwood
@ john czy możesz podać przykład, w jaki sposób podają informacje o autorze. Dzięki
Greg B
@Greg, po prostu poszukaj logo administratora
John Conde
2

Przy tego typu rzeczach istnieje wiele potencjalnych odpowiedzi.

Zacznę od pytania, ile stron faktycznie masz. (przesłałeś szybką stronę 50 000 adresów URL: superuser.com pokazuje 125 000 zaindeksowanych, czy uważasz, że masz tylko 50 000 adresów URL i przesyłasz je wszystkie, ale Google znajduje 2-3 kopie każdej strony? A może masz adresy URL 1 Mil i tylko 12,5 % jest indeksowanych), uzyskanie pełnego obrazu pomaga wskazać, gdzie szukać problemów.

Jeśli nic nie wydaje się być złe w kroku pierwszym, przejdę do treści, wygląda na to, że QH ma o wiele więcej treści na swojej stronie i łączy wiele innych „zasobów”, mimo że cała ich zawartość jest zeskrobana, możliwe, że Google uważa ich za strona bardziej przydatna, ponieważ zapewnia więcej zasobów / informacji dla użytkownika. Jeśli zostaną uznane za autorytet, a wszystkie Twoje treści będą takie same jak ich, możliwe, że Google nie zaindeksuje Twoich, nawet jeśli jesteś oryginalny.

Jeśli jesteś przekonany, że to nie jest problem, stwórz kilka wysokiej jakości linków do niego, opublikuj to pytanie na popularnych blogach pracowniczych lub poproś znajomych o blogowanie na ten temat, być może jeśli masz znajomych SEO prowadzących popularne blogi, napisaliby studium przypadku na ten temat itp.

Jeśli otrzymasz dużo silnych linków i nadal nie jest indeksowany, poszukaj powodów, dla których może zostać ukarany (w większości przypadków nie będzie to problemem, ale nigdy nie boli to sprawdzać).

Jeśli nic z tego nie działa, to 9 razy na 10 jest to prosty problem techniczny, który został przeoczony (wykluczenie robotów lub coś podobnego).

Jeśli po przejściu tego problemu nadal nie masz odpowiedzi, zapytaj Google i mam nadzieję, że otrzymają odpowiedź.

Joshak
źródło
0

Pytanie zostało właśnie zadane wczoraj - daj szansę Googlebotowi, nie jesteś jedyną witryną w Internecie, którą musi indeksować, wiesz :)

Jeśli pytania są zwykle indeksowane w ciągu około jednego dnia, a mija tydzień, a ono wciąż nie jest indeksowane, mogę się martwić. Ale na pewno nie po 1 dniu.

Eric Petroelje
źródło
1
Zwykle pojawiają się w ciągu godziny. Zgadzam się, więc powinienem dać temu czas, ale w stosunku do jego zwykłej częstotliwości ... mam.
Michael Pryor
@ Michael upewnij się, że porównujesz jabłka do jabłek - Google wydaje się indeksować stackoverflow.com w DUŻO wyższym tempie niż nasze inne strony.
Jeff Atwood