Dlaczego na pierwszej stronie Google twierdzi, że są tysiące wyników, a na ostatniej stronie jest ich mniej niż sto?

11

Dlaczego na pierwszej stronie Google twierdzi, że są tysiące wyników, a na ostatniej stronie jest ich mniej niż sto?

To rodzaj rekurencyjnej wyszukiwarki Google, która powinna być zrozumiała. Dopracowanie zdania zajęło mi trochę czasu i próba znalezienia numeru, który dokładnie odpowiadałby, dlatego zamiast tego zmieniłem go na „ setki ”! : P

Jeśli korzystasz z Google wystarczająco długo, z pewnością natknąłeś się na sytuacje podobne do tego, wiele razy. Ilekroć pokazuje mniej niż 10 stron, dość łatwo go zobaczyć. Chodzi o to, że liczba wyników na dowolnej stronie z wyjątkiem ostatniej wydaje się okropnym szacunkiem .

Co dziwniejsze, czasami losowe oszacowanie nagle staje się znacznie lepsze i prawie dokładnie takie samo na wszystkich stronach niż na ostatniej stronie - jedyna strona, która zawsze jest poprawna.

Więc ktoś wie dlaczego?

Cregox
źródło
1
W tej chwili na pierwszej stronie dla tego wyszukiwania napisano 3200 wyników, ale na ostatniej stronie napisano 75 (dla osób zainteresowanych aktualizacją)
dkuntz2
@DKuntz to dla mnie 2990 i 65 (kiedy jestem zalogowany), a jeśli się wyloguję (tak właśnie zrobiłem za pierwszym razem), zmieni się w 3120 i 77. Może później zmienię nieco pytanie i zbuduję bardziej spójne zapytanie rekurencyjne - ale każdy może to zrobić! : P
cregox
Google jest dziwny.
dkuntz2
Mój zawsze mówi 208 wyników na ostatniej stronie, bez względu na to, czy są to 4 strony wyników, czy 22, zawsze mówi 208.
mchid
Zobacz także searchengineland.com/...
1110101001

Odpowiedzi:

6

Nie znam dokładnej odpowiedzi - być może nikt poza Google nie wie. Ale mam dwa punkty danych, które mogą być przydatne.

Pierwszym jest podejście XKCD do problemu:

Wygląda więc na to, że istnieje pewien próg objętości wyników, powyżej którego Google najwyraźniej mówi „pieprzyć to” i wyrzuca gigantyczną liczbę. Wyobrażam sobie, że dzieje się tak prawdopodobnie z powodu niekompetencji niż umyślnego oszukiwania; Jestem pewien, że trudno jest szybko wygenerować strony z wielu źródeł i być może w przypadku wyszukiwań z wieloma wynikami nie mają czasu na zsynchronizowanie wszystkich. Więc fałszują liczby. Fakt, że sprawia to wrażenie, że mają znacznie więcej wyników niż przypuszczalnie, jest prawdopodobnie tylko niezamierzoną premią.

Drugi punkt danych pochodzi od mojego profesora informatyki, który był dość ciekawy tego problemu i niepokoił go niektórym znajomym z Google. Powiedzieli mu, że czasami ustalenie, ile wyników naprawdę zostało zwróconych z wyszukiwania, czasami staje się bardzo kosztowne, więc po prostu najlepiej zgadują i zwracają pierwszą stronę wyników, na której wszystkim zależy. Tylko wtedy, gdy faktycznie zaczynasz przeglądać strony, Google stara się w pełni obliczyć pozostałe strony.

Żadna z tych odpowiedzi nie jest ostateczna, ale mam nadzieję, że przydadzą się w wyjaśnieniu rodzajów problemów, które mogą powodować niedokładności Google.

EDYTOWAĆ:

Odpowiedź Sathya na tej stronie zawiera odpowiedź od webmastera Google KB.

Podczas wyszukiwania wyniki są często wyświetlane z informacją: Wyniki 1–10 około XXXX.

Obliczona przez Google łączna liczba wyników wyszukiwania jest szacunkowa. Rozumiemy, że wartość planszy jest cenna, a dostarczając szacunkowe, a nie dokładne konto, możemy szybciej zwracać wysokiej jakości wyniki wyszukiwania.

Ponadto po kliknięciu następnej strony wyników wyszukiwania łączna liczba wyników wyszukiwania może ulec zmianie. W takim przypadku zdajemy sobie sprawę, że niektóre wyniki zapytania są duplikatami, i zwijamy te duplikaty, aby łatwiej było znaleźć konkretny wynik, którego szukasz. Zwinięcie duplikatów zmniejsza szacunkową liczbę wyników, a także ogólną liczbę stron wyników.

dsolimano
źródło
Chociaż uwielbiam XKCD i kocham byłych nauczycieli, mówisz mi, że prawdopodobnie powinienem o to zapytać na stackoverflow.com: P
cregox
Nie sądzę, aby ktokolwiek w stackoverflow miał ostateczną odpowiedź - jeśli naprawdę musisz wiedzieć, powinieneś zapytać Google. Mogę tylko przekazać odpowiedź od kogoś, kto zapytał Google kilka miesięcy temu.
dsolimano
nie szukając ostatecznej odpowiedzi, tylko jedną z rozsądnym, głębszym wyjaśnieniem, najlepiej z dobrym źródłem. Nie zrozum mnie źle, twój jest rozsądny, ale powiedzenie „bo to trudne”, nawet jeśli jest autorytatywne i sensowne, jest dla mnie za mało. Hmm ... może sceptycy.se: o
cregox
Niezła edycja, teraz to dobre pozyskiwanie! Chociaż wciąż mówi „bo to trudne”, co oznacza, że ​​wciąż mam nadzieję na więcej szczegółów. : P
cregox
7

Nie - liczba jest tylko przybliżeniem .

Podczas wyszukiwania wyniki są często wyświetlane z informacją: Wyniki 1–10 około XXXX.

Obliczona przez Google łączna liczba wyników wyszukiwania jest szacunkowa. Rozumiemy, że wartość planszy jest cenna, a dostarczając szacunkowe, a nie dokładne konto, możemy szybciej zwracać wysokiej jakości wyniki wyszukiwania.

Ponadto po kliknięciu następnej strony wyników wyszukiwania łączna liczba wyników wyszukiwania może ulec zmianie. W takim przypadku zdajemy sobie sprawę, że niektóre wyniki zapytania są duplikatami, i zwijamy te duplikaty, aby łatwiej było znaleźć konkretny wynik, którego szukasz. Zwinięcie duplikatów zmniejsza szacunkową liczbę wyników, a także ogólną liczbę stron wyników.

Sathyajith Bhat
źródło
Myślę, że nie jest to dobre zachowanie, jeśli zawsze ograniczają liczbę wyników do mniej więcej 1000. Jeśli użytkownik chce więcej, powinien pokazać więcej. Moim zdaniem niektóre popularne słowa kluczowe powinny zwracać naprawdę dużą liczbę wyników wyszukiwania (np. Kwiat, książka ...) i myślę, że w Internecie istnieje mnóstwo różnych zdjęć!
@ user11656 zakładasz, że Wyszukiwarka grafiki Google działa tak samo jak wyszukiwanie w standardowej aplikacji, której możesz użyć. W tej skali rzeczy zwykle działają zupełnie inaczej. Prawdopodobnie nie ma jednej odpowiedzi na „wszystkie obrazy pasujące do kwiatu”, ponieważ serwer w Australii może mieć ostatnio przesłane zdjęcie, które nie zostało jeszcze rozpowszechnione na serwerze w USA. Następnie musisz poradzić sobie z takimi rzeczami, jak prezentowanie duplikatów i jak to zrobić na milionach obrazów dla milionów użytkowników natychmiast. Trudne rzeczy i trzeba iść na kompromisy architektoniczne.
George Mauer,
3

Liczby wyników Google są nieistotnym wskaźnikiem . Oprócz zwijania duplikatów masz również wyliczanie, sposób obliczania liczby w pierwszej kolejności przez pomnożenie częstotliwości oraz fakt, że Google nakłada ograniczenie określające maksymalną liczbę wyników, które kiedykolwiek zostaną zwrócone.

JdeBP
źródło
2

Żadna z powyższych odpowiedzi nie jest poprawna.

Szacunki Google muszą być bliższe rzeczywistej liczbie wyników niż podane.

Można to zilustrować prostym przykładem. Wybierz dość częste słowo, takie jak „Rosja” lub „Michał”. W rzeczywistości muszą istnieć tysiące, jeśli nie setki tysięcy stron internetowych, które zawierają te słowa gdzieś na swojej stronie. Ale wyniki Google mogą dać ci, powiedzmy, 700.

Prawda nie jest taka, że ​​Google przesadza, ale teraz Google znacznie ogranicza liczbę wyników, które ci da. Obciąża wyniki poważnie, z naszą wielką szkodą dla osób fizycznych. Jest to niefortunne, ponieważ w niektórych przypadkach chcę czytać tysiące stron z moimi warunkami.

Wiem o tym, ponieważ korzystam z Google od dłuższego czasu, być może 10-15 lat, i zauważyłem, że co do zasady wyniki dla warunków uległy skróceniu, nie dłużej, nawet jeśli liczba witryn z tymi samymi warunkami na ogół musi wzrosły w czasie, gdy korzystam z Google.

Podczas gdy w przeszłości lata temu mogłem uzyskać 1000 wyników dla niektórych terminów, teraz otrzymuję 500 wyników dla tych samych warunków, dla których uzyskałbym 1000 wyników.

Rakowski
źródło
2
Pamiętaj, że „powyżej” nie ma kontekstu w odpowiedziach, ponieważ można je sortować na kilka różnych sposobów. Nawet jeśli przyjmiesz domyślne sortowanie według „głosów”, ich pozycje będą się zmieniać wraz z dodawaniem głosów w górę i w dół.
ale
Bardzo interesujące! Rosja daje mi teraz tylko 322 wyniki i pokazuje to tylko na ostatniej 34 stronie . Do tego czasu powiedziałoby 799 000 000 wyników! Chociaż jest to niezły wgląd, nadal nie wydaje się odpowiedni. Nie sądzę też, aby pierwsze szacunki były poprawne, a intencją jest przyniesienie tylko pokazanych wyników, a nie „ile myśli, że istnieje w sieci”, stąd ostatnia strona to naprawiająca.
cregox,
1

Problem z wyszukiwarką Google (Image) polega na tym, że ma ona znaczenie dla porzucenia wariancji. Po pierwsze, ważne jest, aby zrozumieć, jak to działa. Obraz przesłany do Internetu musi zostać zindeksowany na dwa sposoby:

  • na podstawie oryginalności (obraz ma być analizowany przez „inteligentnego bota” na podstawie koloru, rozmiaru, wzorów, rozpoznawania kształtu, typu itp.)
  • na podstawie podobieństwa (obraz ma być analizowany przez „inteligentnego bota2” i odsyłany do już istniejących obrazów w bazie danych, a następnie oznaczony jedną lub dwiema etykietami kategorii: „obraz jest zgodny”, a „obraz jest podobny do ... „)

Po zakończeniu indeksowania obraz odziedziczy „słowa kluczowe” w wyniku rozpoznania, aby uniknąć pokazywania użytkownikowi wyników nie na temat. Chodzi o to, że każde słowo kluczowe jest samodzielną frazą z przypisaną wartością w% na podstawie siły trafności (dlatego grupowanie większej liczby słów w polu wyszukiwania powoduje mniej wyników, a także podczas wyszukiwania obrazu przez przesłanie go lub wpisanie adresu URL, Google przypisze „zgadnij” tylko z najlepszymi słowami kluczowymi, co oznacza, że ​​wyszukiwanie nigdy nie pokaże wszystkich zdjęć tylko dlatego, że wyszukiwanie nie jest do tego przeznaczone)

Tak więc pod koniec dnia, kiedy przeprowadzasz wyszukiwanie obrazów i zaraz pod polem wyszukiwania zobaczysz ogromną liczbę z napisem „25 270 000 000 wyników (0,55 sekundy)”, to zazwyczaj zawsze jest to fałszywa liczba, ponieważ nie dostaniesz więcej niż 200 (maksymalnie 500, ale tylko na żądanie użytkownika) wyników, które są również filtrowane, aby wykluczyć:

  • zewnętrzne duplikaty (jeśli ten sam obraz jest ponad 2 razy na tej samej stronie witryny)
  • duplikaty trafności (pokazuje tylko „najlepsze wyniki” - patrz zdjęcie poniżej)
  • obrazy, które mają problemy z prawem (patrz zdjęcie poniżej)
  • obrazy, które naruszają DMCA (patrz zdjęcie poniżej)
  • obrazy pochodzące ze źródeł spamu, złośliwego oprogramowania i phishingu
  • obrazy, które są ukryte (jeśli użytkownik nie wyłączył Bezpiecznego wyszukiwania)
  • obrazy znajdujące się na czarnej liście Google ( artykuł )
  • obrazy z innym AR (w zasadzie wszystkie obrazy, które mają inny współczynnik kształtu niż odniesienie do wyszukiwania obrazu, np. możesz pominąć wszystkie pożądane wyniki, jeśli wyszukujesz według wybranego obrazu - powiedzmy z dziwnym współczynnikiem 9: 7 - podczas gdy wszystkie obrazy są indeksowane w Google ma współczynnik 3: 4 - co może być największym minusem tej wyszukiwarki, ponieważ zawsze spełnia pierwsze kryterium proporcji)
  • i wiele innych

Podsumowując: wyniki wyszukiwania obrazu nigdy nie są w pełni trafne. Czasami otrzymasz pożądany wynik z wyszukiwaną frazą „brama plakat”, w przeciwnym razie może to być „brama osłona”, „brama rozmycie”, „brama dvd”, „brama 2015” lub nawet „自衛隊 彼 の 地 に て 斯 斯 く 戦え り ”- po prostu nie można uzyskać wyników„ WSZYSTKIEGO ”, ponieważ nie ma niczego, co jest„ WSZYSTKIE ”, dlatego trzeba się nim bawić, aby się tam dostać. Warto również wspomnieć, że istnieją inne wyszukiwarki obrazów, które mogą wykonywać tę pracę znacznie inaczej, ponieważ działają według różnych standardów i kryteriów. To nie jest i nigdy nie było „Google” tylko ... >> https://www.yandex.com/images/

znaczące rozszerzenia:

użytkownik0
źródło
Znów oznaczenie ich jako duplikatów byłoby znacznie bardziej pomocne niż opublikowanie odpowiedzi na każde pytanie.
jonsca
0

Na górze jest napisane strona 70 z 7000 wyników (przykład). Podaje numer strony i liczbę wyników. Nie ma 70 wyników, ale 70 stron. Mam nadzieję że to pomoże.

Aaron Ford
źródło