Po co dodawać odwrotną częstotliwość dokumentów?

Mój podręcznik podaje idf jako gdzie $log(1+\frac{N}{n_t})$

$N$ : liczba dokumentów
$n_t$ : liczba dokumentów zawierających termin $t$

Wikipedia wymienia tę formułę jako wygładzoną wersję rzeczywistego . Rozumiem to: waha się od do co wydaje się intuicyjne. Ale przechodzi z do co wydaje się takie dziwne ... Wiem trochę o wygładzaniu z modelowania językowego, ale dodam coś do licznika jak również w mianowniku, ponieważ martwisz się masą prawdopodobieństwa. Ale dodanie nie ma dla mnie sensu. Co staramy się tutaj osiągnąć? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing użytkownik2740
źródło

powiązane, ale nie duplikat: stats.stackexchange.com/questions/152182/...

Sycorax mówi Przywróć Monikę

Poprawnym wygładzeniem będzie

\log (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

ashishpatel.co.in

Odpowiedzi:

Jak zauważyłeś w innym miejscu, że tf-idf jest omawiany, nie ma uniwersalnie uzgodnionej pojedynczej formuły do obliczania tf-idf, a nawet (jak w twoim pytaniu) idf . Celem jest osiągnięcie jednego z dwóch celów: a) uniknięcie dzielenia przez zero , tak jak wtedy, gdy termin nie pojawia się w żadnych dokumentach, nawet jeśli nie byłoby to możliwe w podejściu typu „worek słów” lub b) aby ustawić dolną granicę, aby uniknąć przypisania terminu zerowej wagi tylko dlatego, że pojawił się we wszystkich dokumentach. $+ 1$

Tak naprawdę nigdy nie widziałem receptur , chociaż wspominasz o podręczniku. Ale celem jest ustawienie dolnej granicy zamiast zera, jak poprawnie interpretujesz. Widziałem 1 + , który określa dolną granicę 1. Najczęściej stosowanym obliczeniem wydaje się być , jak w Manning, Christopher D, Prabhakar Raghavan i Hinrich Schütze (2008) Wprowadzenie do wyszukiwania informacji , Cambridge University Press, str. 118 lub Wikipedia (na podstawie podobnych źródeł). $log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ $log(\frac{N}{n_t})$

Nie dotyczy bezpośrednio twojego zapytania, ale górna granica nie jest , ale raczej gdzie zależności od formuły wygładzania. Dzieje się tak w przypadku terminów pojawiających się w dokumentach 0 lub 1 (ponownie, zależy od tego, czy wygładzasz za pomocą aby zdefiniować je dla terminów o zerowej częstotliwości dokumentów - jeśli nie, wówczas maksymalna wartość występuje dla terminów pojawiających się tylko w jednym dokumencie). IDF gdy i . $\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

Ken Benoit
źródło