Jakie są zalety i wady stosowania punktowej wzajemnej informacji na macierzy współbieżności słów przed SVD?

11

Jednym ze sposobów generowania zanurzeń słowo jest następująco ( lustro ):

  1. Zdobądź ciała, np. „Lubię latać. Lubię NLP. Lubię głębokie uczenie się”.
  2. Zbuduj z niego macierz współbieżności słów:

wprowadź opis zdjęcia tutaj

  1. Wykonaj SVD na X i zachowaj pierwsze k kolumn U.

wprowadź opis zdjęcia tutaj

U1:|V|,1:k

Pomiędzy krokami 2 i 3 czasami stosowane są punktowe wzajemne informacje (np. A. Herbelot i EM Vecchi. 2015. Budowanie wspólnego świata: Mapowanie dystrybucyjne do teoretycznych przestrzeni semantycznych modelowych . W toku konferencji 2015 na temat metod empirycznych w przetwarzaniu języka naturalnego , Lizbona, Portugalia .).

Jakie są zalety i wady stosowania punktowej wzajemnej informacji na macierzy współbieżności słów przed SVD?

Franck Dernoncourt
źródło

Odpowiedzi:

11

według książki Dana Jurafsky'ego i Jamesa H. Martina :

„Okazuje się jednak, że prosta częstotliwość nie jest najlepszym miernikiem powiązania między słowami. Jednym problemem jest to, że częstotliwość pierwotna jest bardzo wypaczona i mało dyskryminująca. Jeśli chcemy wiedzieć, jakie konteksty są wspólne dla moreli i ananasa ale nie cyfrowo i informacyjnie, nie będziemy dobrze odróżniać od słów takich jak, to lub one, które występują często z różnymi rodzajami słów i nie zawierają informacji o żadnym konkretnym słowie ”.

czasami zastępujemy tę surową częstotliwość pozytywnymi punktowymi informacjami wzajemnymi:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

Sam PMI pokazuje, ile można zaobserwować słowa w ze słowem kontekstowym C w porównaniu z obserwowaniem ich niezależnie. W PPMI zachowujemy tylko dodatnie wartości PMI. Zastanówmy się, kiedy PMI jest + lub - i dlaczego trzymamy tylko te negatywne:

Co oznacza dodatni PMI?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • dzieje się tak, gdy i występują bardziej niż osobno, jak kopnięcie i piłka. Chcielibyśmy je zachować!wc

Co oznacza ujemny PMI?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • oznacza to, że oba i lub jeden z nich występuje zwykle indywidualnie! Może to wskazywać na niewiarygodne statystyki z powodu ograniczonych danych, w przeciwnym razie pokazuje nieinformacyjne współwystępowanie, np. „Piłkę” i „piłkę”. („The” występuje także w przypadku większości słów).cwc

PMI, a zwłaszcza PPMI, pomaga nam wychwycić takie sytuacje z informacyjnym współwystępowaniem.

Maryam Hnr
źródło