Czy jest jakiś test statystyczny, który jest parametryczny i nieparametryczny?

20

Czy jest jakiś test statystyczny, który jest parametryczny i nieparametryczny? To pytanie zadał panel wywiadu. Czy to ważne pytanie?

Biostat
źródło
1
Studiowanie wpisu w Wikipedii dla statystyk nieparametrycznych może wystarczyć, aby przygotować cię na wywiad. Mógłbyś odpowiedzieć na pytanie pytaniem, na przykład „co rozumiesz przez nieparametryczne? Modele bez dystrybucji lub statystyki szeregowania?”
jrhorn424
3
Punktem wyjścia może być pomoc, podobnie jak respondentom, skonsultowanie się z władzami (a nie z Internetem!) W sprawie definicji. „ Przypadki parametryczne ... to wszystkie przypadki, w których klasę wszystkich [stanów natury] można przedstawić w postaci wektora składającego się ze skończonej liczby rzeczywistych składników w naturalny sposób. (... rozkład a funkcja straty zależy od w dość płynny sposób.) Wszystkie inne problemy nazywane są nieparametrycznymi . - JC Kiefer, Wprowadzenie do wnioskowania statystycznego, s. 23.θθθ
whuber
Jeden z profesorów powiedział mi, że „test chi-kwadrat” ma oba zachowania (tj. Parametryczny i nieparametryczny). W ogóle nie rozumiałem, dlaczego „test chi-kwadrat” ma oba zachowania.
Biostat
3
To nie jest test parametryczny, to model . Rozkłady chi-kwadrat powstają w obu sytuacjach (w naturalny sposób w ogólnym modelu liniowym z założeniami rozkładu normalnego oraz jako przybliżenie różnicy prawdopodobieństw logarytmicznych - oba zastosowania parametryczne - a także jako przybliżenie wielomianu dystrybucje powstające w wielu aplikacjach nieparametrycznych), więc istnieje wiele różnych testów o nazwie „chi-kwadrat”. To prawdopodobnie sugeruje komentarz twojego profesora.
whuber
@whuber: Czy twój ostatni komentarz oznacza, że ​​test chi-kwadrat dla dobroci dopasowania jest nieparametryczny?
Tim

Odpowiedzi:

6

Zasadniczo trudno jest dokładnie powiedzieć, co należy rozumieć przez „test parametryczny” i „test nieparametryczny”, choć istnieje wiele konkretnych przykładów, w których większość zgadza się co do tego, czy test jest parametryczny czy nieparametryczny (ale nigdy oba) . Szybkie wyszukiwanie dało tę tabelę , która, jak sądzę, stanowi powszechne praktyczne rozróżnienie w niektórych obszarach między testami parametrycznymi i nieparametrycznymi.

Tuż nad tabelą, o której mowa, jest uwaga:

„... dane parametryczne mają podstawowy rozkład normalny… Wszystko inne jest nieparametryczne”.

Może być przyjętym kryterium w niektórych obszarach, w których albo zakładamy normalność i używamy ANOVA, i jest to parametryczne, albo nie zakładamy normalności i używamy alternatyw nieparametrycznych.

Być może nie jest to bardzo dobra definicja i moim zdaniem nie jest naprawdę poprawna, ale może być praktyczną zasadą. Głównie dlatego celem samym w naukach społecznych, powiedzmy, jest analiza danych, a co dobre, jest to, aby móc sformułować parametrycznego modelu opartego na zasadzie braku rozkładu normalnego, a następnie nie być w stanie analizować dane?

Alternatywną definicją jest zdefiniowanie „testów nieparametrycznych” jako testów, które nie opierają się na założeniach dystrybucyjnych i testach parametrycznych.

Pierwsza i druga z przedstawionych definicji definiuje jedną klasę testów, a następnie definiuje drugą klasę jako uzupełnienie (cokolwiek innego). Z definicji wyklucza to, że test może być zarówno parametryczny, jak i nieparametryczny.

Prawda jest taka, że ​​ta druga definicja jest problematyczna. Co jeśli istnieją pewne naturalne założenia „nieparametryczne”, takie jak symetria, które można narzucić? Czy to przekształci statystykę testową, która w innym przypadku nie opiera się na jakichkolwiek założeniach dystrybucyjnych, w test parametryczny? Większość powiedziałaby „nie”!

Stąd istnieją testy w klasie testów nieparametrycznych, które mogą przyjmować pewne założenia dystrybucyjne o ile nie są one „zbyt parametryczne”. Granica między testami „parametrycznymi” i „nieparametrycznymi” zatarła się, ale wierzę, że większość potwierdzi, że albo test ma charakter parametryczny, albo nieparametryczny, być może nie może być niczym innym, jak stwierdzeniem, że oba są jednocześnie nie ma sensu.-

Z innego punktu widzenia wiele testów parametrycznych to (równoważne) testy współczynnika wiarygodności. Umożliwia to ogólną teorię i mamy jednolite zrozumienie właściwości dystrybucyjnych testów współczynnika wiarygodności w odpowiednich warunkach prawidłowości. Wręcz przeciwnie, testy nieparametryczne nie są równoznaczne z testami współczynnika wiarygodności per se nie ma prawdopodobieństwa i bez metodologii ujednolicania opartej na prawdopodobieństwie musimy uzyskiwać wyniki dystrybucji indywidualnie dla każdego przypadku. Teoria prawdopodobieństwa empirycznego- p--Opracowany głównie przez Art Owena ze Stanford jest jednak bardzo interesującym kompromisem. Oferuje podejście do statystyki oparte na prawdopodobieństwie (co jest dla mnie ważnym punktem, ponieważ uważam prawdopodobieństwo za ważniejszy obiekt niż , powiedzmy, wartość ), bez potrzeby typowych parametrycznych założeń dystrybucyjnych. Podstawową ideą jest sprytne wykorzystanie wielomianowego rozkładu danych empirycznych, metody są bardzo „parametryczne”, ale aktualne, bez ograniczania założeń parametrycznych.p

Testy oparte na prawdopodobieństwie empirycznym mają, według IMHO, zalety testów parametrycznych i ogólność testów nieparametrycznych, stąd wśród testów, o których mogę myśleć, są one najbliższe do zakwalifikowania do bycia parametrycznymi i nieparametrycznymi, chociaż nie używaj tej terminologii.

NRH
źródło
+1 Bardzo ciekawe komentarze. O ile granica zostaje „zamazana”, uważam to za prawidłowe stwierdzenie o percepcji, ale nie ma rozmycia w samych definicjach: rozróżnienie między parametrycznym i nieparametrycznym jest tak wyraźne i ostre, jak to, powiedzmy, skończone i nieskończony.
whuber
@ Whuber, odnosząc się do tego, co jest „zamazane”, odnoszę się konkretnie do faktu, że mogą istnieć również założenia dystrybucyjne dla testów nieparametrycznych, dlatego też moja druga definicja też nie działa. Gdybym miał spróbować precyzyjnej definicji, test parametryczny opiera się na modelu, który można sparametryzować za pomocą podzbioru skończonej przestrzeni euklidesowej. Moim zdaniem najbardziej „niewyraźne” jest to, że dla mnie nie jest jasne, jak daleko od „braku założeń dystrybucyjnych” można przejść, zanim założenia nieparametryczne staną się tak samo problemem, jak założenia parametryczne.
NRH,
@ Whuber, teraz czytam twój komentarz do pytania w odniesieniu do Kiefera, i tak, zdecydowanie warto skonsultować się z organem w sprawie formalnej definicji! Byłem bardziej zaniepokojony tym, co ludzie mają na myśli , mówiąc „nieparametryczny”, i wydaje mi się, że niewielu ma na myśli definicję Kiefera.
NRH,
Zobacz mój cytat z Kiefer w komentarzu do pierwotnego pytania. W szczególności „nieparametryczny” nie oznacza „brak założeń dystrybucyjnych”. Wręcz przeciwnie, najbardziej znanych nieparametryczne testy wszystkie sprawiają dystrybucyjne założenia. Wydaje mi się, że rozumiem twoje poczucie „rozmycia”: wybrałem analogię skończoną / nieskończoną z szacunku dla tego, ponieważ w praktyce bardzo dużą (ale skończoną) liczbę parametrów równie dobrze można uznać za nieskończoną.
whuber
2

Parametryczny jest używany (co najmniej) w dwóch znaczeniach: A - Aby zadeklarować, że przyjmujesz rodzinę rozkładu hałasu do jej parametrów. B - Aby zadeklarować, że zakładasz konkretny funkcjonalny związek między zmiennymi objaśniającymi a wynikiem.

Kilka przykładów:

  • Regresja kwantylowa z linkiem liniowym kwalifikowałaby się jako B-parametryczna i A-nieparametryczna.
  • Wygładzanie splajnu szeregu czasowego z szumem Gaussa może być jakościowe jako A-nieparametryczna i B-parametryczna.

Termin „półparametryczny” zwykle odnosi się do przypadku B i oznacza, że ​​nie przyjmujesz całej zależności funkcjonalnej, ale raczej masz łagodniejsze założenia, takie jak „addytywny w pewnej płynnej transformacji predyktorów”.

Można również przyjąć łagodniejsze założenia dotyczące rozkładu hałasu, takie jak „wszystkie momenty są skończone”, bez konkretnego określenia kształtu rozkładu. Według mojej najlepszej wiedzy nie ma terminu na takie założenie.

Należy zauważyć, że odpowiedź dotyczy podstawowych założeń leżących u podstaw procesu generowania danych. Mówiąc „test aparametryczny”, zwykle mówi się o znaczeniu nieparametrycznym w sensie A. W tym właśnie miałeś na myśli, wtedy odpowiedziałbym „nie”. Niemożliwe byłoby bycie parametrycznym i nieparametrycznym w tym samym sensie w tym samym czasie.

JohnRos
źródło
Dwa znaczenia w pierwszym akapicie często mają jednolite podejście do literatury: to znaczy wydaje się, że nie ma między nimi fundamentalnej ani ważnej różnicy. BTW, przypadek „wszystkie chwile są skończone” jest zdecydowanie problemem nieparametrycznym.
whuber
@ whuber: definicja w Keifer wydaje się obejmować oba przypadki (przyznaję - nigdy jej nie czytam i wciąż szukam wyjątków). Z drugiej strony terminy zmieniają swoje znaczenie. „Empirical-Bayes” nie oznacza już, do czego Robbins go używał w 1955 roku. Nie można zignorować faktu, że krąży więcej niż jedna interpretacja.
JohnRos,
OK, ale powinniśmy być trochę wybredni: oczywiste jest, że wiele interpretacji i prób definicji „parametrycznych” i „nieparametrycznych” są wyrazem ignorancji, a nie zrozumienia. Czy możesz przytoczyć alternatywną definicję, która jest jednocześnie jasna, rygorystyczna i autorytatywna (a konkretnie, autorytatywna w tym sensie, że zostanie zaakceptowana bez pytania przez wiarygodne czasopismo recenzowane)?
whuber
1
@whuber: Przyjmuję wyzwanie! :-) Chociaż zauważ, że odkąd wszyscy badacze rozpoczynają wyszukiwanie w Wikipedii, kwestią czasu jest, aż wiarygodne recenzowane czasopisma dostosują się do definicji Wiki. („jeśli nie możesz ich pokonać ...”)
JohnRos,
1
Artykuł w Wikipedii cytuje Wolfowitza z lat 40. XX wieku, który nie tylko jako pierwszy zastosował „nieparametryczny”, ale także jeden z bezpośrednich intelektualnych przodków Kiefera. Nie sądzę, że znajdziemy tam prawdziwą różnicę. (Kiefer dodaje jedynie wymóg techniczny dotyczący funkcji utraty). Podejrzewam jednak, że bardzo niewielu (jeśli w ogóle) prawdziwych badaczy traktuje Wikipedię jako punkt wyjścia, szczególnie nie w dziedzinach o matematycznych podstawach!
whuber
1

Przypuszczam, że to zależy od tego, co rozumieją przez „parametryczny i nieparametryczny”? Jednocześnie dokładnie jedno, czy połączenie dwóch?

Wiele osób uważa proporcjonalny model zagrożeń Coxa za parametr półparametryczny, ponieważ nie szacuje parametrycznie hazardu podstawowego.

Możesz też wyświetlić wiele statystyk nieparametrycznych jako faktycznie masywnych parametrycznie.

Fomite
źródło
7
To wydaje się być unik. Pytanie dotyczy tego, czy docenia się rozróżnienie między „parametrycznym” a „nieparametrycznym”, czy jest to wyraźne. Dobra odpowiedź rozjaśni to rozróżnienie, nie pomieszając go.
whuber
1
@whuber Które „pytanie”? Panel czy OP? Ponieważ, moim zdaniem, OP nie próbuje niczego rozróżnić. Co oznacza, że ​​zależy to od miejsca, w którym ludzie rysują linię. Nie wydaje mi się, aby podawanie zarówno powszechnego, jak i filozoficznego przykładu dla „Cóż, to zależy”, jest unikiem. Myślę, że to odpowiedź. Na przykład, czy ktoś chce uznać „parametryczny” za w pełni parametryczny, czy po prostu mieć parametry.
Fomite,
Punkt „które pytanie” jest dobry. Myślę, że w miejscu, w którym zaczynam mieć problem z odpowiedzią, jest rozróżnienie, które według moich zasobów nie ma sensu („połączenie” jest nonsensowne, a także pomysł, że „statystyka” może być parametryczna), co sugeruje używasz innej definicji „parametrycznej” i „nieparametrycznej” niż ja. Chociaż doskonale podkreślasz, że odpowiedź musi zależeć od tego, co oznaczają te terminy, w rzeczywistości nie oferujesz definicji, aby Twoje kolejne komentarze były jasne lub zrozumiałe.
whuber
@whuber Do przyjęcia. Uznałem, że pierwotne pytanie było nieco bezsensowne, więc robiłem, co mogłem. Pytanie ma teraz lepsze odpowiedzi, które zakładają pewne założenia na temat tego, co oznacza PO.
Fomite,
0

Bradley w swoich klasycznych testach statystycznych bez dystrybucji (1968, s. 15–16 - patrz to pytanie ), wyjaśnia różnicę między testami bez dystrybucji i testami nieparametrycznymi , które, jak twierdzi, są często ze sobą powiązane, i daje przykład parametrycznego testu bez dystrybucji jako testu znaku dla mediany. W tym teście nie przyjmuje się założeń dotyczących podstawowego rozkładu populacji zmiennych o różnych wartościach, więc nie ma w nim dystrybucji . Jednak, jeśli wybrano mediana poprawne wartości powyżej i poniżej, należy dobrać w równym prawdopodobieństwem badania losowych próbek zp=0,5

Aktualizacja

(ZA¬ZA)

Avraham
źródło
1
Podoba mi się początek tej odpowiedzi, ponieważ stanowi ciekawe rozróżnienie i wspiera ją dobrym odniesieniem. Wydaje mi się jednak, że reszta odpowiedzi myli założenia dotyczące danych z właściwościami statystyki testowej. Założenia testu znaku są rzeczywiście „wolne od dystrybucji”. Jednak fakt, że rozkład próbkowania statystyki testowej jest dwumianowy, jest całkowicie odrębnym zagadnieniem i nie czyni procedury parametryczną!
whuber
Cóż, sam Bradley nazywa test bezdystrybucyjny, ale parametryczny na stronie 15. Pole komentarza jest zbyt małe, aby w całości umieścić dwa kluczowe zdania. Przeczytaj drugą odpowiedź, w szczególności zdania rozpoczynające się „Z grubsza mówiąc…” i „Aby być całkowicie jasnym…”. Dziękuję Ci.
Avraham,
Jeśli tak jest w przypadku Bradleya, to od tego czasu zmieniło się znaczenie tych terminów lub (nie chcę tego powiedzieć) źle interpretujesz to, co napisał. (Nie mam dostępu do kopii, którą mogę sprawdzić.) Zdecydowanie nie jest tak teraz - ani przynajmniej przez ostatnie 30 lat - że „parametryczny” odnosi się do rozkładu statystyki testowej. Zobacz cytat Wolfowitza w artykule na Wikipedii .
whuber
2
faΩθ
2
Dla tego, co jest warte, spojrzałem na dwa inne teksty statystyczne, Prawdopodobieństwo i statystykę DeGroota (2. edycja, str. 520-521) oraz Wprowadzenie Larsona do teorii prawdopodobieństwa i wnioskowania statystycznego (3. wydanie, str. 508-509) i oba używają termin parametryczny oznacza, co Bradly nazywa „bez dystrybucji” , co jest jak Kiefer, jak sądzę. Tak więc, aby odpowiedzieć na OP, zależy to od tego, jak zdefiniujesz „parametryczny”.
Avraham