Skąd pochodzi parametr adresu URL „? Chocaid = 397”?

9

W Narzędziach Google dla webmasterów zauważyłem, że moja strona główna została zindeksowana dwa razy:

  • example.com/
  • example.com/?chocaid=397

Wiem, że mógłbym to naprawić za pomocą typu linku canonical, ale zastanawiam się: skąd pochodzi ten parametr?

Istnieje wiele witryn, które mają strony zaindeksowane tym samym parametrem / wartością: https://duckduckgo.com/?q=chocaid%3D397 .

Szukałem podobieństw między tymi stronami. ale nie udało się znaleźć rozstrzygającej: często jest to pierwsza strona, ale nie w każdym przypadku. Niektóre są NSFW, ale nie wszystkie. Gdy adres URL jednej domeny ma ten parametr, często mają go także inne subdomeny tej samej domeny.

Przykłady

Wpis w Wikipedii

wprowadź opis zdjęcia tutaj

Microsoft Codeplex

wprowadź opis zdjęcia tutaj

unor
źródło
Czy w Narzędziach Google dla webmasterów (lub w dziennikach strony odsyłającej) jest jakieś wskazanie, która strona może prowadzić do tego adresu URL?
MrWhite
@ w3d: Nie mam dostępu do żadnych dzienników. W GWT został wymieniony w „ Ulepszeniach HTML ” → „powtarzane tytuły stron”. Obawiam się, że nie mogę uzyskać żadnych informacji o polecających.
unor
Właśnie się zastanawiałem, czy coś jest w sekcji Ruch> Linki do Twojej witryny> Twoja najbardziej powiązana treść> Więcej (aby uzyskać wszystkie połączone strony). Czy w ?chocaid=397celu zaindeksowania prawdopodobnie coś łączy się z tym, aby Google znalazł link w pierwszej kolejności?
MrWhite
@ w3d: Ach, rozumiem. Niestety w tym raporcie wciąż brakuje danych (prawdopodobnie dlatego, że używam GWT tylko przez kilka dni).
Unor
Nie jestem pewien, czy to pomaga, ale liczba 397 ma coś wspólnego z skrótami (patrz tutaj i tutaj ). Nie jestem pewien, czy to ma coś wspólnego z tym pytaniem, ale ?chocaid=397może to być jakaś próba zadzierania z hashami (niewiele o tym wiem, więc nie jestem tego pewien). To także świetne pytanie.

Odpowiedzi:

1

Jak nowa jest Twoja domena? Możliwe, że było to popularne zapytanie w starej domenie, dlatego wciąż otrzymujesz „odwiedzających”. Czy to odwzorowanie na prawidłową stronę lub 404? Jeśli dostajesz tam wiele odsłon i jest to 404, to odwzorowałbym go (użyj .htaccess) na twoją stronę główną lub coś takiego.

Kyros
źródło
1
Nie zauważyłem jeszcze żadnych gości; Zobaczyłem stronę zaindeksowaną przez Google. Odwzorowuje się na tę samą stronę główną (tak jakby parametr został pominięty). Wiem, że mógłbym go przekierować lub użyć canonical, ale to pytanie dotyczy bardziej pochodzenia tego parametru.
unor
2
Ale to nie wyjaśnia, dlaczego ten sam parametr adresu URL pojawia się w wynikach wyszukiwania wielu innych domen.
MrWhite
1

Być może Googlebot próbuje uzyskać dostęp do jQuery / JavaScript i zaindeksować wszystko, co może. Niedawno pojawił się tutaj post z prośbą o pomoc, ponieważ Googlebot indeksował nieprawidłowe adresy URL w swojej witrynie. John M odpowiedział, jak Googlebot może szukać więcej adresów URL do indeksowania ze skryptów w ich witrynie. Pracuje w Narzędziach Google dla webmasterów. Prawie odpowiedziałeś na swoje pytanie, ustawiając kanoniczny znacznik.

Anagio
źródło
1

Chociaż nie mam jednoznacznej odpowiedzi, jest kilka rzeczy, które znalazłem, patrząc na to, które mogą pomóc zawęzić to:

  • Linki pojawiają się również w Bing i Yahoo, więc nie ma to nic wspólnego z Google.
  • Pojawiają się na stronach wiki, blogach Tumblr, blogach Wordpress i innych witrynach, więc nie będą dodawane poprzez exploit w żadnym konkretnym oprogramowaniu.
  • Pojawiają się na niektórych stronach Tumblr o bardzo niskiej jakości, więc jest mało prawdopodobne, aby były do ​​nich skierowane jakiekolwiek reklamy. Podobnie jest mało prawdopodobne, aby artykuły w Wikipedii były promowane za pomocą reklam.

Domyślam się, że istnieje / istniała witryna ze zgarniaczem, która dodaje ten adres URL do wszystkich znalezionych linków. Z pewnością linki zewnętrzne wydają się najbardziej prawdopodobnym wyjaśnieniem, skąd pochodzą, a katalogi są mało prawdopodobne, ponieważ są dodawane do dość przypadkowych stron.

RichardB
źródło
0

Może to być od dostawcy reklam, który możesz mieć, mam ten sam problem, a jedynym możliwym miejscem, z którego pochodzi, jest dostawca reklam wstrzykujący niektóre złośliwe oprogramowanie za pomocą kodów javascript.

Raymund
źródło
Czy masz na to źródło / dowód? Oznaczałoby to, że Wikipedia jest tym zarażona, ponieważ niektóre z nich są indeksowane za pomocą tego parametru.
lub
Tak, ponieważ mam bloga, który Google zablokował z tego powodu, a po usunięciu reklam sprawców zaczęli usuwać blok
Raymund