Dlaczego stabilizujemy wariancję?

15

Natknąłem się na transformację stabilizującą wariancję podczas czytania metody Kaggle Essay Eval . Używają transformacji stabilizacji wariancji, aby przekształcić wartości kappa przed pobraniem ich średniej, a następnie przekształcić je z powrotem. Nawet po przeczytaniu wiki o transformacjach stabilizujących wariancje nie rozumiem, dlaczego tak naprawdę stabilizujemy wariancje? Jakie korzyści dzięki temu zyskujemy?

Pushpendre
źródło
6
Zwykle celem jest uniezależnienie (asymptotycznej) wariancji od parametru będącego przedmiotem zainteresowania. Jest to szczególnie ważne przy wnioskowaniu, w którym musimy znać rozkład odniesienia, aby obliczyć powiązane wielkości zainteresowania.
kardynał

Odpowiedzi:

13

Oto jedna odpowiedź: zwykle najskuteczniejszym sposobem przeprowadzania wnioskowania statystycznego jest to, że twoje dane są tam. Jeśli tak nie jest, otrzymujesz różne ilości informacji z różnych obserwacji, a to jest mniej wydajne. Innym sposobem widzenia jest stwierdzenie, że jeśli możesz dodać dodatkowe informacje do wniosku (tj. Funkcjonalną formę wariancji poprzez transformację stabilizującą wariancję), ogólnie poprawisz dokładność swoich oszacowań, przynajmniej asymptotycznie. W przypadku bardzo małych próbek przeszkadzanie w modelowaniu wariancji może zwiększyć odchylenie od małej próbki. Jest to rodzaj ekonometrycznego argumentu typu GMM: jeśli dodasz dodatkowe momenty, twoja asymptotyczna wariancja nie może wzrosnąć; a twoje skończone odchylenie próbki wzrasta wraz z nadmiernie zidentyfikowanym stopniem swobody.

Inna odpowiedź została udzielona przez kardynała: jeśli masz nieznaną wariancję wiszącą w ekspresji wariancji asymptotycznej, konwergencja do rozkładu asymptotycznego będzie wolniejsza i będziesz musiał jakoś oszacować tę wariancję. Wstępne przestawienie danych lub statystyk zwykle pomaga poprawić dokładność asymptotycznych przybliżeń.

StasK
źródło
Myślę, że rozumiem pierwsze zdanie w twojej odpowiedzi i przemawia do mnie intuicyjnie. Czy istnieje nazwa dla tej obserwacji, którą mogłabym znaleźć w Google? Chciałbym znaleźć jakieś eksperymenty myślowe lub przykłady, które pokazują, co się dzieje, gdy masz różne ilości informacji w różnych obserwacjach i jak to jest nieefektywne
Pushpendre
Tekst Korn & Graubard (1999) na temat statystyki ankiety omawia to.
StasK,
f1(1nif(κi))
@PushpendreRastogi możesz przeczytać artykuł w Wikipedii na temat tej transformacji. Został wprowadzony przez Fishera w celu ustabilizowania wariancji empirycznego współczynnika korelacji (między zmiennymi normalnymi). W takim przypadku zmieniona transformacja będzie w przybliżeniu normalna, z wariancją zależną tylko od wielkości próbki, a nie od nieznanego współczynnika korelacji (dlatego „stabilizuje” wariancję).
Elvis,
@Elvis, podałem przykład korelacji w artykule w Wikipedii na temat statystyki kluczowej ( en.wikipedia.org/wiki/Pivotal_statistic ). [Jak do cholery podałeś miły link w komentarzu? Próbowałem href, wyglądało to brzydko.]
StasK,