Załóżmy, że podano mi dwie grupy pomiarów masy (w mg), które są określane jako y1 i y2. Chcę zrobić test, aby ustalić, czy dwie próbki są pobierane z populacji w inny sposób. Coś takiego jak na przykład (w R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Dostaję wartość p wynoszącą 0,3234 i na poziomie istotności 0,05 nie odrzucam hipotezy zerowej, że obie grupy pochodzą z populacji o tej samej średniej. Teraz otrzymuję niepewność dla każdego pomiaru:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
gdzie u1 [1] to łączna niepewność standardowa w pomiarze y1 [1] (i tak dalej). Jak włączyć te niepewności do testu statystycznego?
hypothesis-testing
Tomek
źródło
źródło
Odpowiedzi:
Wygląda na to, że chcesz przeprowadzić ważoną analizę. Zobacz „Ważony przykład statystyki” w sekcji „Pojęcia” dokumentacji SAS.
źródło
Dlaczego nie symulować? To znaczy, dodaj swoją niepewność jako realizacje hałasu do każdej obserwacji. Następnie powtórz test hipotez. Zrób to około 1000 razy i zobacz, ile razy wartość null została odrzucona. Musisz wybrać rozkład hałasu. Normalna wydaje się jedną z opcji, ale może powodować negatywne obserwacje, co nie jest realistyczne.
źródło
Możesz przekształcić go w problem regresji i użyć niepewności jako ciężarów. To znaczy, przewidzieć grupę (1 lub 2?) Na podstawie pomiaru w regresji.
Ale
Niepewności są w przybliżeniu stałe, więc wydaje się prawdopodobne, że przy ich użyciu nic się nie zmieni.
Masz łagodną wartość odstającą przy 10,5, co komplikuje sprawy, zmniejszając różnicę między średnimi. Ale jeśli możesz uwierzyć w niepewności, ta wartość nie jest bardziej podejrzana niż jakakolwiek inna.
Test t nie wie, że twoją alternatywną hipotezą jest, że dwie próbki są pobierane z różnych populacji. Wszystko, o czym wie, to porównywanie środków pod pewnymi założeniami. Testy oparte na rangach są alternatywą, ale jeśli jesteś zainteresowany tymi danymi jako pomiarami, nie wydają się one lepsze dla twoich celów.
źródło
W zwykłych najmniejszych kwadratach (np. Lm (y ~ x)) dopuszczasz zmienność (niepewność) wokół wartości y, biorąc pod uwagę wartość x. Jeśli odwrócisz regresję wokół (lm (x ~)), zminimalizujesz błędy wokół x. W obu przypadkach przyjmuje się, że błędy są dość jednorodne.
Jeśli znasz wielkość wariancji wokół każdej obserwacji zmiennej odpowiedzi, a ta wariancja nie jest stała, gdy jest uporządkowana przez x, to powinieneś użyć ważonej najmniejszej liczby kwadratów. Możesz zważyć wartości y współczynnikami 1 / (wariancja).
W przypadku, gdy obawiasz się, że zarówno xiy mają niepewność, i że niepewność nie jest taka sama między nimi, nie chcesz po prostu minimalizować resztek (niepewność adresu) prostopadle do jednej z twoich osi. Idealnie byłoby zminimalizować niepewność, która jest prostopadła do dopasowanej linii trendu. Aby to zrobić, możesz użyć regresji PCA (znanej również jako regresja ortogonalna lub suma najmniejszych kwadratów. Istnieją pakiety R dla regresji PCA , a wcześniej na tej stronie internetowej były posty na ten temat , które zostały następnie omówione w innym miejscu Ponadto sądzę, że (tj. Mogę się mylić ...) nadal możesz wykonać ważoną wersję tej regresji, korzystając z twojej wiedzy na temat wariancji.
źródło