Współczynnik wiarygodności dziennika w podsumowaniu dokumentu

9

Początkowo zapytałem o to w przypadku przepełnienia stosu i zostałem skierowany do tej witryny, więc oto:

Wdrażam niektóre nienadzorowane metody podsumowywania dokumentów w oparciu o selekcję / ekstrakcję treści i jestem zdezorientowany tym, co mój podręcznik nazywa „współczynnikiem wiarygodności dziennika”. Książka „ Przetwarzanie mowy i języka” Jurafsky'ego i Martina w skrócie opisuje to jako:

LLR dla słowa, ogólnie zwanego lambda (w), jest stosunkiem między prawdopodobieństwem obserwacji w zarówno do korpusu wejściowego, jak i tła, przy założeniu równych prawdopodobieństw w obu ciałach, a prawdopodobieństwem zaobserwowania w obu przy założeniu różnych prawdopodobieństw dla w na wejściu i korpusie tła.

W podziale na to mamy licznik: „prawdopodobieństwo zaobserwowania w zarówno korpusu wejściowego, jak i tła, przy założeniu równych prawdopodobieństw w obu ciałach” - Jak obliczyć, jakie prawdopodobieństwo tutaj zastosować?

oraz mianownik: „prawdopodobieństwo zaobserwowania w zarówno przy założeniu różnych prawdopodobieństw w dla korpusu wejściowego, jak i tła”. - czy jest to tak proste, jak prawdopodobieństwo wystąpienia słowa w czasach wejściowych, prawdopodobieństwo wystąpienia słowa w korpusie? dawny:

(liczba (słowo, wejście) / łączna liczba słów na wejściu) * (liczba (słowo, korpus) / łączna liczba słów w korpusie)

Przyglądałem się artykułowi, do którego odnoszą się moje książki, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning 1993), ale trudno mi się odnieść do problemu obliczania wartości LLR dla poszczególnych słów w podsumowaniu opartym na ekstrakcji. Wszelkie wyjaśnienia tutaj byłyby bardzo mile widziane.

Richard
źródło
1
Czy możesz nam powiedzieć, czym jest ten podręcznik?
onestop
Przetwarzanie mowy i języka autorstwa Jurafsky'ego i Martina
Richard

Odpowiedzi:

1

Przy mojej ograniczonej wiedzy myślę:

  1. „prawdopodobieństwo zaobserwowania w danych wejściowych” wymaga rozkładu w celu obliczenia wartości
  2. „prawdopodobieństwo zaobserwowania w zarówno korpusu wejściowego, jak i tła, przy założeniu równych prawdopodobieństw w obu ciałach” oznacza „prawdopodobieństwo zaobserwowania w ... biorąc pod uwagę, że prawdopodobieństwo w jest równe w obu ciałach”.

Oto moje sformułowanie:


Trochę formułując problem:

  1. Hipoteza 1: P (w na wejściu) = P (w w tle) = p
  2. Hipoteza 2: P (w na wejściu) = p1 i P (w w tle) = p2 i p1 p2

Najważniejsze jest to, że musisz założyć tutaj dystrybucję. Upraszczając, zakładamy rozkład dwumianowy do generowania w w tekście. Biorąc pod uwagę próbki danych, możemy użyć oszacowania maksymalnego prawdopodobieństwa do obliczenia wartości dla p, p1 i p2, a oto one:

  1. p = (liczba wejść na wejściu + liczba wejść w tle) / (rozmiar wejściowy + rozmiar tła) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Chcemy wiedzieć, która hipoteza jest bardziej prawdopodobna. Dlatego obliczamy prawdopodobieństwo każdej hipotezy i porównujemy ze sobą (co w zasadzie robi współczynnik prawdopodobieństwa).

Ponieważ przyjmujemy rozkład dwumianowy , możemy obliczyć prawdopodobieństwo posiadania c1 i c2.

Dla hipotezy 1:

L (c1) = Prawdopodobieństwo zaobserwowania w danych wejściowych = prawdopodobieństwo osiągnięcia c1, gdy istnieją słowa N1, przy założeniu, że prawdopodobieństwo p (lub innymi słowy, wybranie w dla czasów c1 spośród czasów N1) wynosi b (N1, c1 , p) - zobacz wzór prawdopodobieństwa dwumianowego tutaj

L (c2) = prawdopodobieństwo zaobserwowania w tle = prawdopodobieństwo osiągnięcia c2, gdy istnieją słowa N2 przy założeniu, że prawdopodobieństwo p wynosi b (N2, c2, p)

W przypadku Hipotezy 2 możemy zamiast tego użyć p1 i p2.

Teraz chcemy wiedzieć, która hipoteza jest bardziej prawdopodobna; będziemy musieli do pewnego stopnia porównać wartość wyjściową z każdej hipotezy.

Ale każda hipoteza ma 2 wartości, L (c1) i L (c2). Jak możemy porównać, która hipoteza jest bardziej prawdopodobna? --- Zdecydowaliśmy się pomnożyć je razem, aby uzyskać jednocenowy wynik. (bo to chyba analogia do geometrii)

Tanin
źródło
w twoich pozycjach p, p1 i p2 są szacunkami p, p1 i p2, prawda?
Xi'an
Tak, to jest poprawne. Statystycznie rzecz biorąc, są to szacunki maksymalnego prawdopodobieństwa, biorąc pod uwagę dane próbki i rozkład dwumianowy.
Tanin
Dzięki za wskazanie tego, btw. Poprawiłem odpowiedź.
Tanin