Uczę się statystyk dla zabawy i mam pewne wątpliwości co do wystarczających statystyk . Moje zamieszanie napiszę w formie listy:
Jeśli rozkład ma parametrów, to czy będzie miał wystarczających statystyk?n
Czy istnieje jakakolwiek bezpośrednia zgodność między wystarczającymi statystykami a parametrami? Czy też wystarczające statystyki służą po prostu jako pula „informacji”, dzięki czemu możemy odtworzyć ustawienie, abyśmy mogli obliczyć te same oszacowania dla parametrów rozkładu podstawowego.
Czy wszystkie dystrybucje mają wystarczające statystyki? to znaczy. czy twierdzenie o faktoryzacji może kiedykolwiek zawieść?
Korzystając z naszej próbki danych, zakładamy rozkład, z którego najprawdopodobniej pochodzą dane, a następnie możemy obliczyć szacunki (np. MLE) dla parametrów rozkładu. Wystarczające statystyki są sposobem na obliczenie tych samych oszacowań parametrów bez konieczności polegania na samych danych, prawda?
Czy wszystkie zestawy wystarczających statystyk będą miały wystarczającą minimalną statystykę?
To jest materiał, którego używam do zrozumienia tematu: https://onlinecourses.science.psu.edu/stat414/node/283
Z tego, co rozumiem, mamy twierdzenie faktoryzacyjne, które dzieli rozkład połączeń na dwie funkcje, ale nie rozumiem, w jaki sposób jesteśmy w stanie wydobyć wystarczającą statystykę po rozkładeniu rozkładu na nasze funkcje.
Pytanie Poissona podane w tym przykładzie miało wyraźną faktoryzację, ale następnie stwierdzono, że wystarczające statystyki to średnia próbki i suma próbki. Skąd wiedzieliśmy, że są to wystarczające statystyki, patrząc tylko na formę pierwszego równania?
W jaki sposób można przeprowadzić te same oszacowania MLE przy użyciu wystarczających statystyk, jeśli drugie równanie wyniku faktoryzacji będzie czasem zależeć od samych danych ? Na przykład w przypadku Poissona druga funkcja zależała od odwrotności iloczynu silni danych i nie mielibyśmy już danych!
Dlaczego wielkość próby nie byłaby wystarczającą statystyką w stosunku do przykładu Poissona na stronie internetowej ? Wymagalibyśmy od rekonstruowania niektórych części pierwszej funkcji, więc dlaczego nie jest to również wystarczająca statystyka?
Odpowiedzi:
Prawdopodobnie skorzystałbyś z czytania o wystarczalności w jakimkolwiek podręczniku statystyki teoretycznej, w którym większość tych pytań zostanie szczegółowo omówiona. Krótko ...
Niekoniecznie. Są to szczególne przypadki: rozkładów, w których wsparcie (zakres wartości, które dane mogą przyjąć) nie zależy od nieznanych parametrów, tylko te z rodziny wykładniczej mają wystarczającą statystykę o tej samej wielkości co liczba parametry Aby więc oszacować kształt i skalę rozkładu Weibulla lub lokalizację i skalę rozkładu logistycznego na podstawie niezależnych obserwacji, statystyka porządku (cały zestaw obserwacji bez względu na ich kolejność) jest wystarczająca minimalna - nie można jej dalej zmniejszyć bez utraty informacje o parametrach. Jeżeli wsparcie zależy od nieznanych parametrów, zmienia się: dla równomiernego rozkładu na maksimum próbki jest wystarczające dla ;θ ( θ - 1 , θ + 1 )(0,θ) θ (θ−1,θ+1) próbka minimum i maksimum są razem wystarczające.
Nie wiem, co rozumiesz przez „bezpośrednią korespondencję”; podana alternatywa wydaje się dobrym sposobem na opisanie wystarczających statystyk.
Tak: trywialne dane jako całość są wystarczające. (Jeśli usłyszysz, jak ktoś mówi, że nie ma wystarczających statystyk, oznacza to, że nie ma statystyk niskiego wymiaru).
Tak, to jest pomysł. (Co pozostało - rozkład danych uwarunkowany wystarczającą statystyką - można wykorzystać do sprawdzenia założenia dystrybucji niezależnie od nieznanych parametrów).
Najwyraźniej nie, chociaż zbieram kontrprzykłady nie są dystrybucjami, których prawdopodobnie będziesz chciał użyć w praktyce. [Byłoby miło, gdyby ktokolwiek mógł to wyjaśnić, nie zajmując się zbytnio teorią miar.]
W odpowiedzi na dalsze pytania ...
Pierwszy czynnik, , zależy od tylko przez . Tak więc wszelkie funkcje jeden-do-jednego z jest wystarczająca: , , † , i tak dalej. λ∑ x i ∑ x i ∑ x i ∑ x i / n(∑ x i ) 2e−nλ⋅λ∑xi λ ∑xi ∑xi ∑xi ∑xi/n (∑xi)2
Drugi czynnik, , nie zależy od więc nie wpłynie na wartość przy której jest wartością maksymalną. Uzyskaj MLE i przekonaj się sam.λλf(x;λ)1x1!x2!…xn! λ λ f(x;λ)
Wielkość próbki jest znaną stałą, a nie zrealizowaną wartością zmiennej losowej ‡ , więc nie jest uważana za część wystarczającej statystyki; to samo dotyczy znanych parametrów innych niż te, o których chcesz wnioskować.n
† W tym przypadku kwadrat jest jeden do jednego, ponieważ jest zawsze dodatnia.∑xi
‡ Gdy jest zrealizowaną wartością zmiennej losowej , to będzie ona częścią wystarczającej statystyki, . Powiedzmy, że wybierasz wielkość próbki 10 lub 100, podrzucając monetę: mówi ci nic o wartości ale wpływa na to, jak dokładnie możesz ją oszacować; w tym przypadku nazywa się to uzupełnieniem pomocniczym do wnioskowanie może następować poprzez uwarunkowanie jego zrealizowanej wartości - w efekcie ignorując, że mogło być inaczej.n N (∑xi,n) n θ ∑xi
źródło