Dlaczego Google Webmaster Tools indeksuje nieprawidłowe adresy URL i wyświetla 500 błędów?

11

Narzędzia Google dla webmasterów zgłaszają ponad 12 000 błędów. Eeee!

Żaden z adresów URL nie jest prawidłowy - wszystkie zawierają www.youtube.com. Po pierwsze, dlaczego Google indeksuje te adresy URL, jeśli nie istnieją? Dostarczyłem mapę witryny i oczywiście nie ma ich w mapie witryny.

Nie mam robots.txt niczego blokującego. Sprawdziłem, czy nie ma nieprawidłowych przekierowań - brak i sprawdziłem, czy nie zawierają zamkniętych tagów lub czegoś, co przypadkowo wrzuciłoby www.youtube.com do adresu URL - brak.

W każdym „odsyłaczu z” odsyłający adres URL jest również złym adresem URL, w którym znajduje się www.youtube.com. Narzędzia Google nie zgłaszają złośliwego oprogramowania i nie mogę sprawdzić dzienników serwera, ponieważ host nie daje mi dostępu.

Naprawdę utknąłem !! Doceniamy wszelkie pomysły!

Amos Kane
źródło
Czy możesz podać jakieś przykłady?
ionFish
Czy Twoja witryna to Wordpress lub inna platforma blogowa?
Ubique,
3
Jeśli widzisz błędy HTTP 500 (błędy serwera) dla nieprawidłowych adresów URL, prawdopodobnie masz problem z konfiguracją - nieprawidłowe adresy URL powinny zwracać 404 lub 410.
John Mueller

Odpowiedzi:

8

Istnieją (przynajmniej) dwa typowe powody, dla których dziwne i zniekształcone adresy URL mogą pojawiać się jako błędy indeksowania w Narzędziach dla webmasterów.

Pierwszą możliwością jest to, że ktoś skopiował twoje strony (lub inne strony, które prowadzą do twoich) i zmienił linki w tym procesie. Zdarza się to częściej niż myślisz; patrz np. szóste pytanie w tym blogu Google dla webmasterów .

Inną możliwością jest to, że sam Googlebot próbuje postępować według tego, co uważa za linki JavaScript, i psuje to . Te dwa przypadki zazwyczaj można odróżnić, odwiedzając stronę odsyłającą (która powinna istnieć i być dostępna, jeśli Google zaindeksuje ją na początku) i szukając nazwy strony docelowej w jej źródle.

Tak czy inaczej, są w zasadzie dwie rzeczy, które możesz zrobić: albo zignoruj ​​linki, albo wymyśl jakieś reguły przepisywania, aby spróbować zmapować uszkodzone adresy URL na działające. Jeśli widzisz oczywisty wzorzec w adresach URL i znasz wyrażenia regularne, polecam to drugie podejście - wyczyści ono listę błędów indeksowania, a może nawet da ci niewielkie i dość kiepskie, ale prawdziwe, zwiększenie PageRank .

Trzecią opcją, jeśli okaże się, że ktoś kopiuje twoje treści bez pozwolenia, jest próba ich usunięcia . Możesz nawet wysłać skargę (i / lub formalne żądanie usunięcia) do dostawcy usług hostingowych, jeśli uważasz to za uzasadnione. Oczywiście, biorąc pod uwagę, że najwyraźniej prowadzą one z powrotem do Twojej witryny, niekoniecznie będzie to warte wysiłku.

Ilmari Karonen
źródło
0

Google indeksuje witrynę nie od razu wszystkich stron jednocześnie.

Google indeksuje strony przede wszystkim na najwyższym poziomie. Następnie po kilku dniach Google próbuje zaindeksować głębiej - drugi poziom stron (strony, na których Google znalazł linki na pierwszym poziomie stron) i tak dalej. W ten sposób Google próbuje zaindeksować każdą stronę w witrynie. Tak więc Google tworzy hierarchiczne drzewo linków, a Google wie, które strony są powiązane z każdą stroną.

Następnie Google przyszedł do każdej zaindeksowanej strony po pewnym czasie i sprawdza, czy treść na stronie jest zmieniana. Interwał indeksowania dla każdej strony i każdej witryny jest oparty na wielu czynnikach.

Jeśli więc usuniesz jakąś stronę i zaktualizujesz wszystkie linki do tej strony na wszystkich innych stronach - Google nie wie tego od razu i próbuje zaindeksować usuniętą stronę, ponieważ planuje zaindeksować tę stronę zgodnie ze swoim harmonogramem.

webvitaly
źródło