Jestem ciekawy natury . Czy ktoś może powiedzieć coś intuicyjnego na temat „Co mówi o danych?”
Edytować:
Dziękuję za odpowiedzi
Po wzięciu świetnych kursów chciałbym dodać kilka punktów:
- Jest to miara informacji, tj. to ilość informacji wzdłuż kierunku x .
- Dwoistość: Od jest dodatnio określona, więc jest Σ - 1 , więc one są normy dot-produktów, a dokładniej są podwójne normy siebie, więc możemy czerpać Fenchel Podwójny za uregulowana problemu najmniejszych kwadratów, a nie maksymalizację wrt podwójny problem. Możemy wybrać jeden z nich, w zależności od ich uwarunkowania.
- Przestrzeń Hilberta: Kolumny (i rzędy) i obejmują to samo miejsce. Zatem nie ma żadnej przewagi (innej niż gdy jedna z tych macierzy jest źle uwarunkowana) między reprezentacją za pomocą lub
- Statystyki częstokroć: Jest ściśle związane z informacjami Fishera, z wykorzystaniem powiązań Cramér – Rao. W rzeczywistości macierz informacji Fishera (zewnętrzny produkt gradientu prawdopodobieństwa logarytmu z samym sobą) jest związana przez Craméra – Rao, tj. (wrt dodatni półokreślony stożek, stężenie iewrt elipsoidy). Kiedy więc estymator maksymalnego prawdopodobieństwa jest skuteczny, tj. W danych istnieje maksymalna informacja, więc częstość reżimu optymistycznego jest optymalna. Mówiąc prościej, w przypadku niektórych funkcji prawdopodobieństwa (zauważ, że funkcjonalna forma prawdopodobieństwa zależy wyłącznie od modelu probablistycznego, który rzekomo wygenerował dane, czyli model generatywny), maksymalne prawdopodobieństwo jest wydajnym i spójnym estymatorem, rządzącym jak szef. (przepraszam za przekroczenie tego)
Odpowiedzi:
Jest to miara precyzji, podobnie jak jest miarą dyspersji.Σ
Mówiąc dokładniej, jest miarą tego, w jaki sposób zmienne są rozproszone wokół średniej (elementy diagonalne) i jak różnią się one z innymi zmiennymi (elementami poza diagonalnymi). Im bardziej dyspersja, tym bardziej oddalają się od średniej i im bardziej różnią się (w wartości bezwzględnej) z innymi zmiennymi, tym silniejsza jest ich tendencja do „wspólnego przemieszczania się” (w tym samym lub przeciwnym kierunku w zależności od znak kowariancji).Σ
Podobnie, jest miarą tego, jak ciasno skupione są zmienne wokół średniej (elementy diagonalne) i stopień, w jakim nie różnią się one razem z innymi zmiennymi (elementy nie-diagonalne). Zatem im wyższy element przekątny, tym ciaśniej zmienna jest skupiona wokół średniej. Interpretacja elementów nie przekątnych jest bardziej subtelna i odsyłam do innych odpowiedzi dotyczących tej interpretacji.Σ−1
źródło
Używając indeksów górnych do oznaczenia elementów odwrotnych, jest wariancją składnika zmiennej która jest nieskorelowana z innymi zmiennymi , i jest częściową korelacją zmiennych i , kontrolującą inne zmienne .1/σii i p−1 −σij/σiiσjj−−−−−√ i j p−2
źródło