W jakim momencie n-gramy przynosi efekt przeciwny do zamierzonego?

13

Podczas przetwarzania języka naturalnego można wziąć korpus i ocenić prawdopodobieństwo wystąpienia następnego słowa w sekwencji n. n jest zwykle wybierane jako 2 lub 3 (bigramy i trygramy).

Czy istnieje znany punkt, w którym śledzenie danych dla n-tego łańcucha staje się nieproduktywne, biorąc pod uwagę czas potrzebny do sklasyfikowania konkretnego korpusu raz na tym poziomie? Czy biorąc pod uwagę czas potrzebny na sprawdzenie prawdopodobieństwa ze słownika (struktury danych)?

jonsca
źródło
związane z innym wątkiem o przekleństwie wymiarowości
Antoine

Odpowiedzi:

2

Czy istnieje znany punkt, w którym śledzenie danych dla n-tego łańcucha staje się nieproduktywne, biorąc pod uwagę czas potrzebny do sklasyfikowania konkretnego korpusu raz na tym poziomie?

Powinieneś szukać zakłopotania vs. n-gramowych tabel lub wykresów .

Przykłady:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

wprowadź opis zdjęcia tutaj

http://images.myshared.ru/17/1041315/slide_16.jpg :

wprowadź opis zdjęcia tutaj

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

wprowadź opis zdjęcia tutaj

Zakłopotanie zależy od modelu języka, wielkości n-gramów i zestawu danych. Jak zwykle istnieje kompromis między jakością modelu językowego a czasem jego uruchomienia. Najlepsze obecnie modele językowe oparte są na sieciach neuronowych, więc wybór rozmiaru n-gramów jest mniejszym problemem (ale wtedy musisz wybrać rozmiar (rozmiary) filtra, jeśli używasz CNN, między innymi hiperparametrami ...).

Franck Dernoncourt
źródło
12

Twój pomiar „kontrproduktywności” może być dowolny - np. z dużą ilością szybkiej pamięci można go przetwarzać szybciej (bardziej rozsądnie).

Powiedziawszy to, dochodzi do wzrostu wykładniczego i z moich własnych obserwacji wydaje się, że wynosi około 3-4. (Nie widziałem żadnych konkretnych badań).

Trygramy mają przewagę nad bigramami, ale są małe. Nigdy nie wdrożyłem 4 gramów, ale poprawa będzie znacznie mniejsza. Prawdopodobnie zmniejsza się podobny rząd wielkości. Na przykład. jeśli trygramy poprawią rzeczy o 10% w stosunku do bigramów, rozsądnym szacunkiem dla 4 gramów może być 1% poprawa w porównaniu z trygramami.

10,000dziesięć tysięcy2)dziesięć tysięcy3)dziesięć tysięcy4

Będziesz potrzebował ogromnego korpusu, aby skompensować efekt rozcieńczenia, ale Prawo Zipfa mówi, że ogromny korpus będzie zawierał jeszcze bardziej unikalne słowa ...

Spekuluję, że właśnie dlatego widzimy wiele modeli bigram i trigram, implementacji i demonstracji; ale brak w pełni działających 4-gramowych przykładów.

winwaed
źródło
2
Dobre podsumowanie. Strony 48-53 („długa włóczęga cyniczna diatribe”) poniższego artykułu zawierają więcej szczegółów na ten temat (artykuł zawiera również wyniki dla n-gramów wyższego rzędu) research.microsoft.com/~joshuago/longcombine.pdf
Jewgienij
2
Link jest martwy. Oto pełne odniesienie i link do wersji arXiv: Joshua T. Goodman (2001). Trochę postępu w modelowaniu języka: wersja rozszerzona. Microsoft Research: Redmond, WA (USA). Raport techniczny MSR-TR-2001-72.
paskudny