Podczas przetwarzania języka naturalnego można wziąć korpus i ocenić prawdopodobieństwo wystąpienia następnego słowa w sekwencji n. n jest zwykle wybierane jako 2 lub 3 (bigramy i trygramy).
Czy istnieje znany punkt, w którym śledzenie danych dla n-tego łańcucha staje się nieproduktywne, biorąc pod uwagę czas potrzebny do sklasyfikowania konkretnego korpusu raz na tym poziomie? Czy biorąc pod uwagę czas potrzebny na sprawdzenie prawdopodobieństwa ze słownika (struktury danych)?
text-mining
natural-language
jonsca
źródło
źródło
Odpowiedzi:
Powinieneś szukać zakłopotania vs. n-gramowych tabel lub wykresów .
Przykłady:
http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :
http://images.myshared.ru/17/1041315/slide_16.jpg :
http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :
Zakłopotanie zależy od modelu języka, wielkości n-gramów i zestawu danych. Jak zwykle istnieje kompromis między jakością modelu językowego a czasem jego uruchomienia. Najlepsze obecnie modele językowe oparte są na sieciach neuronowych, więc wybór rozmiaru n-gramów jest mniejszym problemem (ale wtedy musisz wybrać rozmiar (rozmiary) filtra, jeśli używasz CNN, między innymi hiperparametrami ...).
źródło
Twój pomiar „kontrproduktywności” może być dowolny - np. z dużą ilością szybkiej pamięci można go przetwarzać szybciej (bardziej rozsądnie).
Powiedziawszy to, dochodzi do wzrostu wykładniczego i z moich własnych obserwacji wydaje się, że wynosi około 3-4. (Nie widziałem żadnych konkretnych badań).
Trygramy mają przewagę nad bigramami, ale są małe. Nigdy nie wdrożyłem 4 gramów, ale poprawa będzie znacznie mniejsza. Prawdopodobnie zmniejsza się podobny rząd wielkości. Na przykład. jeśli trygramy poprawią rzeczy o 10% w stosunku do bigramów, rozsądnym szacunkiem dla 4 gramów może być 1% poprawa w porównaniu z trygramami.
Będziesz potrzebował ogromnego korpusu, aby skompensować efekt rozcieńczenia, ale Prawo Zipfa mówi, że ogromny korpus będzie zawierał jeszcze bardziej unikalne słowa ...
Spekuluję, że właśnie dlatego widzimy wiele modeli bigram i trigram, implementacji i demonstracji; ale brak w pełni działających 4-gramowych przykładów.
źródło