Zrozumienie zastosowania logarytmów w logarytmie TF-IDF

10

Czytałem:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób.

Co robię Rozumiem:

iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej.

Z tej perspektywy

iDF(S)=# of Documents# of Documents containing S

Ponadto termin częstotliwość można słusznie opisać jako

tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document D

Więc miara

iDF(S)×tf(S,D)

jest w pewien sposób proporcjonalne do częstotliwości pojawiania się terminu w danym dokumencie i wyjątkowości tego terminu w stosunku do zestawu dokumentów.

Czego nie rozumiem

Ale podana formuła opisuje to jako

(log(iDF(S)))(12+log(12tf(S,D)))

Chciałbym zrozumieć potrzebę logarytmów opisanych w definicji. Dlaczego oni tam są? Jaki aspekt podkreślają?

frogeyedpeas
źródło

Odpowiedzi:

9

P(A,B)=P(A)P(B)log(P(A,B))=log(P(A))+log(P(B)) .

Jako link do artykułu w Wikipedii, który podajesz, uzasadnienie TF-IDF wciąż nie jest dobrze ugruntowane; jest to / była heurystyka, którą chcemy wprowadzić w rygor, a nie rygorystyczną koncepcję, którą chcemy przenieść do realnego świata. Jak wspomniał @ Anony-Mousse, bardzo dobrą lekturą na ten temat jest Robertson's Understanding Inverse Document Frequency: On theoretical arguments for IDF . Daje szeroki przegląd całego frameworka i próbuje uziemić metodologię TF-IDF do ważenia trafności wyszukiwanych haseł.

usεr11852
źródło
4
Pewne uzasadnienie TF-IDF można znaleźć w „Formalnym badaniu heurystyk wyszukiwania informacji”, 2004 przez Fanga, Hui i in. ( Pdf ).
Alexey Grigorev
3
Myślę, że jest to lepsze odniesienie do uzasadnień TF-IDF: Robertson, S. (2004). „Zrozumienie odwrotnej częstotliwości dokumentów: argumenty teoretyczne dla IDF”. Journal of Documentation 60 (5): 503–520.
Ma ZAKOŃCZENIE - Anony-Mousse,
Dziękuję za komentarze panów (i specjalne podziękowania dla Aleksieja za poprawienie \log, ciągle o nich zapominam); +1 do obu. Widziałem artykuł Robertsona i zastanawiałem się nad jego dodaniem; to naprawdę dobra lektura, dodam ją w głównej części.
usεr11852
@ Anony-Mousse (pdf)
Walrus the Cat
Chcę wiedzieć, dlaczego „maksymalna liczba wystąpień dowolnego ciągu Q w dokumencie D” jest używana zamiast number of occurrences for all strings in document D. Dlaczego chcemy liczby najbardziej popularnych słów zamiast liczby wszystkich słów?
Xeoncross,