Test statystyczny dla wartości znacznie oddalonej od średniej populacji: czy jest to test Z czy test T?

12

Jak znacząca jest wartość w porównaniu do listy wartości? W większości przypadków testy statystyczne obejmują porównanie zestawu próbek z populacją. W moim przypadku próbka składa się z jednej wartości i porównujemy ją z populacją.

Jestem dyletantem w testowaniu hipotez statystycznych w obliczu chyba najbardziej podstawowego problemu. To nie tylko jeden test, ale setki z nich. Mam przestrzeń parametrów i muszę wykonać test istotności dla każdego punktu. Zarówno wartość, jak i lista w tle (populacja) są generowane dla każdej kombinacji parametrów. Następnie zamawiam to według wartości p i znajduję ciekawe kombinacje parametrów. Istotne jest także znalezienie kombinacji parametrów, w których ta wartość p jest wysoka (nieistotna).

Weźmy więc jeden pojedynczy test: mam wyliczoną wartość wygenerowaną z wybranego zestawu i zestaw wartości w tle obliczonych przez wybór losowego zestawu treningowego. Obliczona wartość wynosi 0,35, a zestaw tła jest (prawdopodobnie?) Normalnie rozłożony ze średnią 0,25 i bardzo wąskim standardem (e-7). Właściwie nie mam wiedzy na temat dystrybucji, ponieważ próbki są obliczane z czegoś innego, nie są to próbki liczb losowych z jakiejś dystrybucji, więc tło jest do tego właściwym słowem.

Hipoteza zerowa byłaby taka, że ​​„średnia z testu próbki równa się mojej obliczonej wartości 0,35”. Kiedy powinienem uznać to za test Z lub test T? Chcę, aby wartość była znacznie wyższa niż średnia populacji, dlatego jest to test jednostronny.

Jestem trochę zdezorientowany co do tego, co uważać za próbkę: albo mam próbkę jednego (obserwacja) i listę tła, ponieważ populacja LUB moja próbka jest listą tła i porównuję to do całości (niespróbkowane) populacja, która zgodnie z hipotezą zerową powinna mieć tę samą średnią. Po podjęciu decyzji, jak sądzę, test idzie w różnych kierunkach.

Jeśli jest to test T, jak obliczyć jego wartość p? Chciałbym to obliczyć sam, zamiast używać funkcji R / Python / Excel (już wiem, jak to zrobić), dlatego najpierw muszę ustalić poprawną formułę.

T=Z/s,
Z=X¯σn
s=σ^/σ
  1. Jak obliczyć wartość p? (tzn. nie używam funkcji R / Python / Excel lub wyszukiwania tabeli wartości p, ale faktycznie obliczam ją na podstawie formuły, ponieważ chcę wiedzieć, co robię)
  2. Jak zdecydować o progu istotności na podstawie wielkości mojej próbki? (formuła byłaby miła)
grokkaine
źródło
3
1060.35=106×107+0.250.35
1
@grokkaine - To pytanie rodzi interesujące problemy i wydaje się cenne, ale uznałbym je za jeszcze bardziej wartościowe, gdybyś je nieco zmodyfikował, zwracając uwagę na bardzo precyzyjne warunki.
rolando2
To nie tylko jeden test, ale setki z nich. Mam przestrzeń parametrów i muszę wykonać test istotności dla każdego punktu. Zarówno wartość, jak i lista w tle (populacja) są generowane dla każdej kombinacji parametrów. Następnie zamawiam to według wartości p i znajduję ciekawe kombinacje parametrów. Istotne jest także znalezienie kombinacji parametrów, w których ta wartość p jest wysoka (nieistotna). Spróbuję później edytować swój post.
grokkaine

Odpowiedzi:

10

Podnosisz interesujące pytanie. Po pierwsze, jeśli masz obserwację 0,35, średnią 0,25 i odchylenie standardowe 1/10 ^ 7 (tak interpretuję twój e ^ -7 bit), naprawdę nie musisz wchodzić w jakąkolwiek hipotezę ćwiczenie testowe. Twoja obserwacja 0,35 jest bardzo różna od średniej 0,25, biorąc pod uwagę, że będzie to kilka tysięcy standardowych odchyleń od średniej i prawdopodobnie będzie to kilka milionów standardowych błędów od średniej.

Różnica między testem Z a testem t dotyczy głównie wielkości próby. W przypadku próbek mniejszych niż 120 należy użyć testu t do obliczenia wartości p. Gdy rozmiary próbek są większe, nie ma znaczenia, czy w ogóle użyjesz. Fajnie jest obliczyć to w obie strony, niezależnie od wielkości próbki i obserwować, jak niewielka jest różnica między tymi dwoma testami.

Jeśli chodzi o samodzielne obliczanie rzeczy, możesz obliczyć statystykę t, dzieląc różnicę między twoją obserwacją a średnią i podziel ją przez błąd standardowy. Błąd standardowy to odchylenie standardowe podzielone przez pierwiastek kwadratowy z wielkości próby. Teraz masz swoją statystykę. Aby obliczyć wartość ap, myślę, że nie ma innej alternatywy niż sprawdzenie wartości t w tabeli testowej. Jeśli zaakceptujesz prosty Excel alternatywny TDIST (wartość t statystyki, DF, 1 lub 2 dla 1 lub 2 wartości p ogona), załatwi sprawę. Aby obliczyć wartość ap za pomocą Z, formuła Excela dla testu 1 ogona jest następująca: (1 - NORMSDIST (wartość Z). Wartość Z jest taka sama jak t stat (lub liczba błędów standardowych od średniej).

Podobnie jak zastrzeżenie, te metody testowania hipotez mogą zostać zniekształcone przez wielkość próby. Innymi słowy, im większy rozmiar próby, tym mniejszy błąd standardowy, tym wyższa wynikowa wartość Z lub t stat, tym niższa wartość p, i tym wyższa ważność statystyczna. Jako skrót w tej logice, duże rozmiary próbek będą miały duże znaczenie statystyczne. Jednak wysokie znaczenie statystyczne w połączeniu z dużą wielkością próby może być całkowicie nieistotne. Innymi słowy, statystycznie znaczący jest wyrażeniem matematycznym. Nie musi to oznaczać znaczącego (według słownika Webster).

Aby uniknąć tej dużej pułapki wielkości próby, statystycy przeszli na metody Effect Size. Te ostatnie wykorzystują jako jednostkę statystycznej odległości między dwiema obserwacjami odchylenie standardowe zamiast błędu standardowego. Przy takich ramach wielkość próby nie będzie miała wpływu na twoje znaczenie statystyczne. Użycie efektu wielkości spowoduje również odejście od wartości p w kierunku przedziałów ufności, które mogą być bardziej zrozumiałe w zwykłym języku angielskim.

Sympa
źródło
Dzięki za odpowiedź, jestem trochę zdezorientowany co do tego, co uznać za próbkę: albo mam próbkę jednego (obserwację) i listę tła, ponieważ populacja LUB moja próbka jest listą tła i porównuję to do cała (niespróbkowana) populacja, która zgodnie z hipotezą zerową powinna mieć tę samą średnią. Po podjęciu decyzji, jak sądzę, test idzie w różnych kierunkach.
grokkaine
Wykorzystaj wszystkie obserwacje, które masz jako próbkę (jakkolwiek to nazwiesz). I obliczyć statystyczną odległość między jedną obserwacją a średnią próbki, jak określono. Oblicz odchylenie standardowe i błąd standardowy próbki. I statystyczna odległość twojej obserwacji od średniej wynosi: (Obserwacja - Średnia) / Błąd standardowy = t stat. Użyj funkcji Excel TDIST (DF, t stat, 1 (dla jednego ogona)), a otrzymasz wartość p.
Sympa
5

Testowanie hipotez zawsze odnosi się do populacji. Jeśli chcesz wypowiedzieć się na temat próbki, nie musisz testować (po prostu porównaj to, co widzisz). Częstokroć wierzą w asymptotyki, więc dopóki próbka jest duża, nie przejmuj się dystrybucją danych. Test Z i test T wykonują zasadniczo to samo pod względem obliczania statystyki testu, tylko wartości krytyczne są uzyskiwane z różnych rozkładów (normalny vs student-T). Jeśli próbka jest duża, różnica jest znikoma.

Odnośnie Q1: wystarczy spojrzeć na to z rozkładu T z n-1 stopniami swobody, gdzie n jest rozmiarem próbki.

Odnośnie Q2: Obliczasz próg na podstawie pożądanego poziomu istotności dla testu Z oraz na podstawie poziomu istotności na podstawie wielkości próby w przypadku testu T.

Ale poważnie, powinieneś przejrzeć niektóre podstawy.

joint_p
źródło
Dziękuję za odpowiedź. Tak naprawdę to był t-dist, którego używałem, ale chciałem również zrozumieć „dlaczego” go używam. Jak zdefiniować „dużą” próbkę i czym różni się wartość p? Co ważniejsze, skąd mamy wiedzieć, czy rozkład jest normalny, czy student-t? Czy jest na to test statystyczny? Może użyjesz testu Kołmogorowa-Smirnowa dla drugiego i hmm .. Czego użyć dla pierwszego?
grokkaine
2
duże ... dobrze Z i t są zbieżne, zaczynając od n = 60. Wystarczy porównać wartości p uzyskane z obu testów. Założenie t / normalny rozkład nie zależy od rozkładu danych bazowych. Opiera się na założeniu, że rozkład próby średniej jest normalny. Nawet jeśli zmienna testowana jest rozproszona Gamma, to nadal obowiązuje. Przy n = 200 powinno to działać dobrze. Ponownie, wszystkie te rzeczy oparte są na statystykach częstych.
joint_p
+1 za komentarz na temat testowania hipotez zawsze odnoszący się do populacji, ale -1 za pozorne pominięcie punktu, że pytający ma próbkę 1.
Peter Ellis
1
Nie byłam do końca pewna, co „mam wyliczoną wartość i zestaw losowo generowanych wartości w tle. Wartość wyliczona wynosi 0,35” miała oznaczać ... Myślałem, że to w jakiś sposób sugeruje, że jest więcej niż jedna obserwacja.
joint_p
ponownie zamieszczając moje komentarze z innych akapitów: Jestem trochę zdezorientowany, co uważać za próbkę: albo mam próbkę jednego (obserwację) i listę tła jako populację LUB moja próbka jest listą tła i Porównuję to do całej populacji (niespróbkowanej), która według hipotezy zerowej powinna mieć tę samą średnią. Po podjęciu decyzji, jak sądzę, test idzie w różnych kierunkach.
grokkaine