Testy statystyczne uwzględniające niepewność pomiaru

11

Załóżmy, że podano mi dwie grupy pomiarów masy (w mg), które są określane jako y1 i y2. Chcę zrobić test, aby ustalić, czy dwie próbki są pobierane z populacji w inny sposób. Coś takiego jak na przykład (w R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Dostaję wartość p wynoszącą 0,3234 i na poziomie istotności 0,05 nie odrzucam hipotezy zerowej, że obie grupy pochodzą z populacji o tej samej średniej. Teraz otrzymuję niepewność dla każdego pomiaru:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

gdzie u1 [1] to łączna niepewność standardowa w pomiarze y1 [1] (i tak dalej). Jak włączyć te niepewności do testu statystycznego?

Tomek
źródło
Czy są to sparowane pomiary, czy nie? (Zakładam, że nie.) Niepewności można wykorzystać do wyprowadzenia ciężarów, które mogłyby poprawić twoje wnioskowanie, ale zróżnicowanie niepewności jest dość małe, więc nie będzie dużego zysku, nawet jeśli niepewności są dokładne.
Glen_b
Są to podzbiór prawdziwych niesparowanych danych. Ten przykład miał przede wszystkim wyjaśnić pytanie. Tak naprawdę szukam ogólnych wskazówek, jak najlepiej włączyć niepewność pomiaru do testu hipotez (jak w teście). Wydaje mi się, że marnujemy wiele cennych informacji, jeśli nie wykorzystamy niepewności pomiaru, ale nie udało mi się znaleźć w literaturze jasnych wskazówek na ten temat.
Tom
Aby w pełni je wykorzystać, należy włączyć je do probabilistycznego modelu obserwacji; co właściwie reprezentują niepewności pomiaru ? (Nie możesz tego robić ręcznie, więc bądź ostrożny.)
Glen_b

Odpowiedzi:

1

Wygląda na to, że chcesz przeprowadzić ważoną analizę. Zobacz „Ważony przykład statystyki” w sekcji „Pojęcia” dokumentacji SAS.

Stóg
źródło
Więc po prostu przeprowadzamy test t ze ważonymi średnimi i ważonymi odchyleniami standardowymi, gdzie u1 i u1 są wagami?
Tom
Tak. Można założyć, że wariancja i-tej obserwacji to Var / w_i, gdzie w_i jest wagą dla i-tej obserwacji, a Var> 0.
Rick
1

Dlaczego nie symulować? To znaczy, dodaj swoją niepewność jako realizacje hałasu do każdej obserwacji. Następnie powtórz test hipotez. Zrób to około 1000 razy i zobacz, ile razy wartość null została odrzucona. Musisz wybrać rozkład hałasu. Normalna wydaje się jedną z opcji, ale może powodować negatywne obserwacje, co nie jest realistyczne.

soakley
źródło
1

Możesz przekształcić go w problem regresji i użyć niepewności jako ciężarów. To znaczy, przewidzieć grupę (1 lub 2?) Na podstawie pomiaru w regresji.

Ale

Niepewności są w przybliżeniu stałe, więc wydaje się prawdopodobne, że przy ich użyciu nic się nie zmieni.

Masz łagodną wartość odstającą przy 10,5, co komplikuje sprawy, zmniejszając różnicę między średnimi. Ale jeśli możesz uwierzyć w niepewności, ta wartość nie jest bardziej podejrzana niż jakakolwiek inna.

Test t nie wie, że twoją alternatywną hipotezą jest, że dwie próbki są pobierane z różnych populacji. Wszystko, o czym wie, to porównywanie środków pod pewnymi założeniami. Testy oparte na rangach są alternatywą, ale jeśli jesteś zainteresowany tymi danymi jako pomiarami, nie wydają się one lepsze dla twoich celów.

Nick Cox
źródło
Punkt wzięty. Zmieniłem pytanie, aby wyrazić je w kategoriach środków.
Tom
0

W zwykłych najmniejszych kwadratach (np. Lm (y ~ x)) dopuszczasz zmienność (niepewność) wokół wartości y, biorąc pod uwagę wartość x. Jeśli odwrócisz regresję wokół (lm (x ~)), zminimalizujesz błędy wokół x. W obu przypadkach przyjmuje się, że błędy są dość jednorodne.

Jeśli znasz wielkość wariancji wokół każdej obserwacji zmiennej odpowiedzi, a ta wariancja nie jest stała, gdy jest uporządkowana przez x, to powinieneś użyć ważonej najmniejszej liczby kwadratów. Możesz zważyć wartości y współczynnikami 1 / (wariancja).

W przypadku, gdy obawiasz się, że zarówno xiy mają niepewność, i że niepewność nie jest taka sama między nimi, nie chcesz po prostu minimalizować resztek (niepewność adresu) prostopadle do jednej z twoich osi. Idealnie byłoby zminimalizować niepewność, która jest prostopadła do dopasowanej linii trendu. Aby to zrobić, możesz użyć regresji PCA (znanej również jako regresja ortogonalna lub suma najmniejszych kwadratów. Istnieją pakiety R dla regresji PCA , a wcześniej na tej stronie internetowej były posty na ten temat , które zostały następnie omówione w innym miejscu Ponadto sądzę, że (tj. Mogę się mylić ...) nadal możesz wykonać ważoną wersję tej regresji, korzystając z twojej wiedzy na temat wariancji.

rbatt
źródło