Czytałem:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób.
Co robię Rozumiem:
iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej.
Z tej perspektywy
Ponadto termin częstotliwość można słusznie opisać jako
Więc miara
jest w pewien sposób proporcjonalne do częstotliwości pojawiania się terminu w danym dokumencie i wyjątkowości tego terminu w stosunku do zestawu dokumentów.
Czego nie rozumiem
Ale podana formuła opisuje to jako
Chciałbym zrozumieć potrzebę logarytmów opisanych w definicji. Dlaczego oni tam są? Jaki aspekt podkreślają?
źródło
\log
, ciągle o nich zapominam); +1 do obu. Widziałem artykuł Robertsona i zastanawiałem się nad jego dodaniem; to naprawdę dobra lektura, dodam ją w głównej części.number of occurrences for all strings in document D
. Dlaczego chcemy liczby najbardziej popularnych słów zamiast liczby wszystkich słów?