według książki Dana Jurafsky'ego i Jamesa H. Martina :
„Okazuje się jednak, że prosta częstotliwość nie jest najlepszym miernikiem powiązania między słowami. Jednym problemem jest to, że częstotliwość pierwotna jest bardzo wypaczona i mało dyskryminująca. Jeśli chcemy wiedzieć, jakie konteksty są wspólne dla moreli i ananasa ale nie cyfrowo i informacyjnie, nie będziemy dobrze odróżniać od słów takich jak, to lub one, które występują często z różnymi rodzajami słów i nie zawierają informacji o żadnym konkretnym słowie ”.
czasami zastępujemy tę surową częstotliwość pozytywnymi punktowymi informacjami wzajemnymi:
PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)
Sam PMI pokazuje, ile można zaobserwować słowa w ze słowem kontekstowym C w porównaniu z obserwowaniem ich niezależnie. W PPMI zachowujemy tylko dodatnie wartości PMI. Zastanówmy się, kiedy PMI jest + lub - i dlaczego trzymamy tylko te negatywne:
Co oznacza dodatni PMI?
P(w,c)(P(w)P(c))>1
P(w,c)>(P(w)P(c))
dzieje się tak, gdy i występują bardziej niż osobno, jak kopnięcie i piłka. Chcielibyśmy je zachować!wc
Co oznacza ujemny PMI?
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
oznacza to, że oba i lub jeden z nich występuje zwykle indywidualnie! Może to wskazywać na niewiarygodne statystyki z powodu ograniczonych danych, w przeciwnym razie pokazuje nieinformacyjne współwystępowanie, np. „Piłkę” i „piłkę”. („The” występuje także w przypadku większości słów).cwc
PMI, a zwłaszcza PPMI, pomaga nam wychwycić takie sytuacje z informacyjnym współwystępowaniem.