Jak zmierzyć dyspersję w danych dotyczących częstotliwości słów?

10

Jak mogę określić ilościowo dyspersję w wektorze liczby słów? Szukam statystyki, która będzie wysoka dla dokumentu A, ponieważ zawiera wiele różnych słów, które występują rzadko, i niska dla dokumentu B, ponieważ zawiera jedno słowo (lub kilka słów), które występują często.

Mówiąc bardziej ogólnie, jak mierzyć dyspersję lub „rozpiętość” w danych nominalnych?

Czy istnieje standardowy sposób na zrobienie tego w społeczności zajmującej się analizą tekstu?

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

dB ”
źródło

Odpowiedzi:

10

Dla prawdopodobieństw (proporcji lub udziałów) sumujących się do 1, rodzina p a i [ ln ( 1 / p i ) ] b zawiera kilka propozycji środków (indeksów, współczynników, cokolwiek) na tym terytorium. A zatempipia[ln(1/pi)]b

  1. zwraca liczbę zaobserwowanych wyraźnych słów, o której najłatwiej jest myśleć, niezależnie od jej ignorowania różnic między prawdopodobieństwami. Jest to zawsze przydatne, jeśli tylko jako kontekst. W innych dziedzinach może to być liczba firm w sektorze, liczba gatunków zaobserwowanych w danym miejscu i tak dalej. Zasadniczo nazwijmy toliczbą różnych elementów.a=0,b=0

  2. zwraca sumę prawdopodobieństw do kwadratu Giniego-Turinga-Simpsona-Herfindahla-Hirschmana-Greenberga, znaną również jako częstotliwość powtarzania lub czystość lub prawdopodobieństwo dopasowania lub homozygotyczność. Często podaje się go jako uzupełnienie lub wzajemność, czasem pod innymi nazwami, takimi jak zanieczyszczenie lub heterozygotyczność. W tym kontekście istnieje prawdopodobieństwo, że dwa wybrane losowo słowa są takie same, a ich dopełnienie 1 - p 2 i prawdopodobieństwo, że dwa słowa są różne. Odwrotność 1 /p 2 ia=2,b=01pi21/pi2 ma interpretację jako równoważną liczbę jednakowo wspólnych kategorii; jest to czasami nazywane odpowiednikiem liczb. Taką interpretację można zauważyć, zauważając, że jednakowo powszechnych kategorii (każde prawdopodobieństwo zatem 1 / k ) implikuje p 2 i = k ( 1 / k ) 2 = 1 / k, tak że odwrotność prawdopodobieństwa wynosi tylko k . Wybór nazwy najprawdopodobniej zdradzi dziedzinę, w której pracujesz. Każde pole szanuje swoich przodków, ale pochwalam prawdopodobieństwo dopasowania jako proste i prawie samo określające się.k1/kpja2)=k(1/k)2)=1/kk

  3. zwraca entropię Shannona, często oznaczoną H i już zasygnalizowaną bezpośrednio lub pośrednio w poprzednich odpowiedziach. Utknęłatutajnazwaentropii, z mieszanki doskonałych i niezbyt dobrych powodów, nawet czasami zazdrości fizyki. Zauważ, że exp ( H ) jest liczbami równoważnymi dla tej miary, co widać, zauważając w podobnym stylu, że k równie powszechnych kategorii daje H = k ( 1 / k ) ln [ 1 / ( 1 / kza=1,b=1H.exp(H.)k , a zatem exp ( H ) = exp ( ln k ) daje ci k . Entropia ma wiele wspaniałych właściwości; „teoria informacji” to dobry termin wyszukiwania.H=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

Preparat znajduje się w IJ Good. 1953. Częstotliwości populacji gatunków i oszacowanie parametrów populacji. Biometrika 40: 237-264. www.jstor.org/stable/2333344 .

Inne zasady dla logarytmu (np. 10 lub 2) są równie możliwe w zależności od smaku, precedensu lub wygody, z prostymi odmianami sugerowanymi dla niektórych powyższych wzorów.

Niezależne odkrycia (lub nowe odkrycia) drugiego pomiaru są różnorodne w kilku dyscyplinach, a powyższe nazwy są dalekie od pełnej listy.

Wiązanie wspólnych środków w rodzinie nie jest tylko matematyczne. Podkreśla, że ​​istnieje możliwość wyboru miary w zależności od względnych wag zastosowanych do rzadkich i powszechnych przedmiotów, a tym samym zmniejsza się wrażenie adhockery wywołane niewielką ilością pozornie arbitralnych propozycji. Literatura w niektórych dziedzinach jest osłabiona przez papiery, a nawet książki oparte na wątpliwych twierdzeniach, że jakaś miara faworyzowana przez autora (autorów) jest najlepszą miarą, którą każdy powinien stosować.

Moje obliczenia wskazują, że przykłady A i B nie różnią się tak bardzo, z wyjątkiem pierwszego taktu:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Niektórzy mogą być zainteresowani zauważeniem, że Simpson wymieniony tutaj (Edward Hugh Simpson, 1922-) jest taki sam jak ten uhonorowany paradoksem nazwy Simpson. Wykonał świetną robotę, ale nie był pierwszym, który odkrył żadną rzecz, dla której ma na imię, co z kolei jest paradoksem Stiglera, który z kolei ....)

Nick Cox
źródło
To genialna odpowiedź (i dużo łatwiejsza do naśladowania niż dobry artykuł z 1953 roku;)). Dziękuję Ci!
dB „
7

Nie wiem, czy istnieje jakiś wspólny sposób, ale wydaje mi się to analogiczne do kwestii nierówności w ekonomii. Jeśli traktujesz każde słowo jako pojedynczą, a ich liczba jest porównywalna do dochodu, jesteś zainteresowany porównaniem, gdzie worek słów znajduje się pomiędzy skrajnościami każdego słowa mającego tę samą liczbę (całkowita równość), lub jednego słowa mającego wszystkie liczby a wszyscy inni zero. Ponieważ komplikacja polega na tym, że „zero” nie pojawia się, nie można mieć mniej niż 1 w zestawie słów, jak to zwykle definiuje się ...

Współczynnik Giniego dla A wynosi 0,18, a dla B 0,43, co pokazuje, że A jest bardziej „równy” niż B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Interesują mnie też inne odpowiedzi. Oczywiście staromodna wariancja zliczeń byłaby również punktem wyjścia, ale trzeba by ją w jakiś sposób skalować, aby była porównywalna z torbami o różnych rozmiarach, a zatem o różnych średnich liczbach na słowo.

Peter Ellis
źródło
Dobra rozmowa - współczynnik Giniego też był moją pierwszą myślą! Przeszukując google scholar, nie znalazłem jednak precedensu w używaniu go z danymi tekstowymi. Zastanawiam się, czy społeczność NLP / pobierania tekstu ma bardziej standardowe podejście do tego rodzaju rzeczy ...
dB „
Uważaj: według mojego oblicza Gini otrzymał imię co najmniej trzech różnych miar. Historia jest w każdym przypadku możliwa do obrony, ale ludzie muszą zobaczyć zastosowaną formułę.
Nick Cox
1
Dobra uwaga @NickCox - Myślałem o tym, który jest używany do nierówności, co moim zdaniem jest najczęstszym zastosowaniem: ellisp.github.io/blog/2017/08/05/weighted-gini Widziałem różne metody szacowanie / obliczanie, ale wszystkie z tą samą podstawową definicją, w tym kontekście. Wiem, że ludzie uczący się maszynowo używają tego do czegoś innego, ale nie widzieli swojej wymówki ...
Peter Ellis
1
@dB 'Znalazłem ten artykuł o korzystaniu z Gini w aplikacji tekstowej: postępowanie.mlr.press / v10/sanasam10a/sanasam10a.pdf (wolę tę odpowiedź od przyjętej, ponieważ najlepiej wykonuje rozróżnienie A i B !)
Darren Cook
5

W tym artykule omówiono standardowe miary rozproszenia stosowane przez lingwistów. Są one wymienione jako miary rozproszenia pojedynczych słów (mierzą rozproszenie słów w sekcjach, na stronach itp.), Ale możliwe jest, że mogłyby być użyte jako miary rozproszenia częstotliwości słów. Standardowe statystyki wydają się:

  1. maks. min
  2. odchylenie standardowe
  3. CV
  4. χ2

Klasyki to:

  1. D=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

Tekst wspomina także o dwóch innych miarach rozproszenia, ale opierają się one na przestrzennym ustawieniu słów, więc nie ma to zastosowania do modelu worka słów.

  • Uwaga : Zmieniłem oryginalną notację z artykułu, aby formuły były bardziej spójne ze standardową notacją.
Chris Novak
źródło
fxi
vi
1
Dlaczego równania ze źródła nie są dokładnie kopiowane (nie jest to tylko zmiana etykiet w wyrażeniach, ale także zmiana wyrażenia, a przynajmniej niekonsekwentna zmiana etykiet / zmiennych)?
Sextus Empiricus
@NickCox Dziękuję za złapanie tego, poprawiłem formuły, aby zawierały tylko określone ilości.
Chris Novak
@MartijnWeterings Masz rację, że pierwotnie artykuł dotyczył wskaźników dyspersji pojedynczych słów, chociaż zdają się one ogólnie uogólniać na częstotliwość słów. Na wszelki wypadek zawarłem tę informację w odpowiedzi. Zmieniłem pierwotną notację, aby dopasować je do torby słowa modelowego (zastępując f przez N, a v_i przez n_i). Dodałem notatkę, aby to zaznaczyć, ale jeśli uważasz, że nadal jest to mylące, mogę podać dłuższe uzasadnienie w odpowiedzi.
Chris Novak
4

Najpierw obliczę entropię Shannona. Możesz użyć pakietu R. infotheo, funkcji entropy(X, method="emp"). Jeśli go owiniesz natstobits(H), otrzymasz entropię tego źródła w bitach.

Aleksiej Burnakow
źródło
3

p(p1,...,pn)

H¯(p)pilnpilnn.

0H¯(p)1

  • kpi=I(i=k)H¯(p)=0

  • pi=1/nH¯(p)=1

Ben - Przywróć Monikę
źródło