Moja matka bierze udział w kursie internetowym, aby zostać bibliotekarką, w tym kursie obejmują wyszukiwania boolowskie, dzięki czemu mogą skutecznie przeszukiwać bazy danych, jednak pojawiło się pytanie brzmiące mniej więcej tak:
Wyszukiwanie „x OR y” spowoduje 105 000 trafień, podczas gdy wyszukiwanie tylko x da 80 000 trafień, a wyszukiwanie tylko y da 35 000 trafień. Dlaczego wyszukiwanie „x OR y” daje 105 000 trafień, gdy połączone pojedyncze wyszukiwania dają 115 000 trafień?
Dla mnie to brzmiało dziwnie, więc sam to przetestowałem, używając słów bekon i kanapka .
- Tylko boczek przyniósł 179 000 000 wyników
- Tylko kanapki przyniosły 312 000 000 wyników
- kanapka z boczkiem LUB dała 491 000 000 wyników
Ale dla mnie sumuje się: 179 000 000 (boczek) + 312 000 000 (kanapka) = 491 000 000 (boczek LUB kanapka)
Dlaczego zapytanie OR może skutkować mniejszą liczbą trafień niż oba pojedyncze zapytania łącznie?
Odpowiedzi:
Wskazówka: Wyszukiwanie x AND y da 10 000 trafień.
źródło
Obowiązująca tutaj zasada liczenia to wykluczenie włączenia .
Diagram Venna może być bardziej przekonujący dla kogoś, kto może być zastraszony przez notację.
źródło
Dokument 1: Kot jest na stole
Dokument 2: Mój kot jest czarny
Dokument 3: Pies jest pod stołem
Dokument 4: Jak nazywa się twój kot?
Dokument 5: To jest czarno-białe zdjęcie
Wyszukaj kota : zwrócone dokumenty to 1,2,4 (3 zwrócone dokumenty)
Wyszukaj czarne : zwrócone dokumenty są ...
Wyszukaj kota LUB czarne : zwrócone dokumenty są ...
:-D :-D
źródło
W prostych słowach:
Szukaj X daje n odpowiedzi.
Szukaj Y daje m odpowiedzi.
Szukaj X AND Y daje p odpowiedzi.
Szukając X LUB Y, wyszukiwanie przerywa się, gdy tylko znajdzie X lub Y. Więc jeśli X znajduje się przed Y, to Y nie będzie liczone podczas wyszukiwania X LUB Y. Dlatego twoje wyszukiwanie X LUB Y da ci n + m - p odpowiedzi.
Ważne jest, aby pamiętać, że wyniki będą takie same, niezależnie od tego, czy wykonasz 2 wyszukiwania, czy tylko jedno. Po prostu podsumowując dwa wyszukiwania, niektóre dokumenty są liczone dwukrotnie.
źródło
Wyobraź sobie, że masz tylko jeden dokument. To jest Dokument nr 1 z tym:
Teraz wyobraź sobie, że masz funkcję wyszukiwania, która może dostarczyć wszystkie dokumenty na podstawie jednego słowa kluczowego:
Zauważ, że liczba dokumentów w obu przypadkach wynosi 1. Teraz, jeśli masz funkcję wyszukiwania, która podaje liczbę dokumentów, które pasują do jednego lub więcej podanych słów kluczowych:
Gdy dodasz liczbę dokumentów zawierających
X
do liczby dokumentów zawierającychY
, spowoduje to policzenie tego samego dokumentu dwukrotnie. W twoim przypadku tak się stało,10000
jak wskazano powyżej :)źródło