Czy istnieje gałąź statystyki, która zajmuje się danymi, dla których dokładne wartości nie są znane , ale dla każdej osoby znamy maksymalne lub minimalne ograniczenie do wartości ?
Podejrzewam, że mój problem wynika w dużej mierze z tego, że staram się go wyrazić statystycznie, ale mam nadzieję, że przykład pomoże wyjaśnić:
Powiedzmy, że istnieją dwie połączone populacje i tak że w pewnym momencie członkowie mogą „przejść” do , ale odwrotność nie jest możliwa. Czas przejścia jest zmienny, ale nieprzypadkowy. Na przykład może oznaczać „osobniki bez potomstwa”, a „osobniki z co najmniej jednym potomstwem”. Interesuje mnie wiek, w którym ten postęp występuje, ale mam tylko dane przekrojowe. Dla danego indywidualny, mogę dowiedzieć się, czy należą one do lub . Znam także wiek tych osób. Dla każdej osoby w populacjiB A B A B A B A, Wiem, że wiek w chwili przejścia będzie WIĘKSZY NIŻ ich obecny wiek. Podobnie, w przypadku członków grupy wiem, że wiek przejścia był MNIEJSZY NIŻ ich obecny wiek. Ale nie znam dokładnych wartości.
Powiedzmy, że mam inny czynnik, który chcę porównać z wiekiem przejścia. Na przykład chcę wiedzieć, czy podgatunek lub wielkość ciała danej osoby wpływa na wiek pierwszego potomstwa. Zdecydowanie mam kilka przydatnych informacji, które powinny udzielić odpowiedzi na te pytania: średnio u osób w osoby starsze przechodzą później. Ale informacje są niedoskonałe , szczególnie dla młodszych osób. I vice versa dla populacji .
Czy istnieją ustalone metody radzenia sobie z tego rodzaju danymi ? Niekoniecznie potrzebuję pełnej metody przeprowadzania takiej analizy, tylko kilka wyszukiwanych haseł lub użytecznych zasobów, aby zacząć na właściwym miejscu!
Ostrzeżenia: Przyjmuję uproszczone założenie, że przejście z punktu do punktu jest natychmiastowe. Jestem również gotów założyć, że większość osób przejdzie w pewnym momencie do , zakładając, że żyją wystarczająco długo. I zdaję sobie sprawę, że dane podłużne byłyby bardzo pomocne, ale zakładam, że w tym przypadku nie są one dostępne.B B
Przepraszam, jeśli jest to duplikat, jak powiedziałem, częścią mojego problemu jest to, że nie wiem, czego powinienem szukać. Z tego samego powodu w razie potrzeby dodaj inne tagi.
Zbiór danych próbki: Ssp oznacza jedną z dwóch podgatunków, lub . Potomstwo oznacza brak potomstwa ( ) lub co najmniej jedno potomstwo ( )Y A B
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Edycja: przykładowy zestaw danych został zmieniony, ponieważ nie był zbyt reprezentatywny
źródło
Odpowiedzi:
Są to tak zwane dane dotyczące bieżącego stanu . Otrzymujesz jeden przekrój danych, a jeśli chodzi o odpowiedź, wszystko, co wiesz, to to, że w obserwowanym wieku każdego pacjenta zdarzenie (w twoim przypadku: przejście z A do B) miało miejsce lub nie. Jest to szczególny przypadek cenzury interwałowej .
Aby go formalnie zdefiniować, niech będzie (nieobserwowanym) prawdziwym czasem zdarzenia dla podmiotu . Niech czas inspekcji dla przedmiotu (w twoim przypadku: wiek podczas inspekcji). Jeśli , dane są odpowiednio cenzurowane . W przeciwnym razie dane są cenzurowane . Jesteśmy ciekawe w modelowaniu rozkładu . Dla modeli regresji, jesteśmy zainteresowani w modelowaniu, w jaki sposób zmienia się rozkład z zestawem zmiennych towarzyszących .T.ja ja doja ja doja< Tja T. X
Aby to przeanalizować za pomocą metod cenzury interwałowej, należy umieścić dane w ogólnym formacie cenzury interwałowej. Oznacza to, że dla każdego podmiotu mamy przedział , który reprezentuje przedział, w którym wiemy, że ma być zawarty. Więc jeśli temat jest właściwie ocenzurowany w czasie inspekcji , napisalibyśmy . Jeśli pozostanie ocenzurowany w , reprezentowalibyśmy go jako .(li,ri) Ti i ci (ci,∞) ci (0,ci)
Bezwstydna wtyczka: jeśli chcesz użyć modeli regresji do analizy danych, możesz to zrobić w R za pomocą
icenReg
(jestem autorem). W rzeczywistości, w podobnym pytaniu o bieżące dane o statusie , OP przedstawił fajną demonstrację użycia icenReg . Zaczyna od pokazania, że ignorowanie części cenzurującej i stosowanie regresji logistycznej prowadzi do stronniczości (ważna uwaga: odnosi się do stosowania regresji logistycznej bez dostosowywania się do wieku . Więcej na ten temat później).Kolejnym świetnym pakietem
interval
, który zawiera między innymi testy statystyczne rang logarytmicznych.EDYTOWAĆ:
@EdM zasugerował użycie regresji logistycznej w celu rozwiązania problemu. Niesłusznie to lekceważyłem, mówiąc, że będziesz musiał się martwić o funkcjonalną formę czasu. Chociaż stoję za stwierdzeniem, że powinieneś martwić się o funkcjonalną formę czasu, zdałem sobie sprawę, że nastąpiła bardzo rozsądna transformacja, która prowadzi do rozsądnego estymatora parametrycznego.
W szczególności, jeśli wykorzystamy log (czas) jako zmienną towarzyszącą w naszym modelu z regresją logistyczną, otrzymamy proporcjonalny model szans z logistyczną linią bazową.
Aby to zobaczyć, najpierw należy wziąć pod uwagę, że model proporcjonalnej regresji szans jest zdefiniowany jako
gdzie jest podstawowym prawdopodobieństwem przeżycia w czasie . Zauważ, że efekty regresji są takie same jak w przypadku regresji logistycznej. Wszystko, co musimy teraz zrobić, to pokazać, że rozkładem podstawowym jest logistyka.Oddso(t) t
Teraz rozważ regresję logistyczną z log (Czas) jako współzmienną. Mamy wtedy
Przy odrobinie pracy możesz to zobaczyć jako CDF modelu logistyczno-logistycznego (z nieliniową transformacją parametrów).
Wykazanie R, że pasowania są równoważne:
Zauważ, że efekt
grp
jest taki sam w każdym modelu, a końcowe prawdopodobieństwo dziennika różni się tylko błędem numerycznym. Parametry podstawowe (tj. Przechwytywanie i log_age dla regresji logistycznej, alfa i beta dla modelu cenzurowanego przedziału) są różnymi parametrami, więc nie są sobie równe.Więc masz to: użycie regresji logistycznej jest równoważne dopasowaniu proporcjonalnych szans z logistycznym rozkładem podstawowym. Jeśli nie masz nic przeciwko dopasowaniu tego modelu parametrycznego, regresja logistyczna jest całkiem rozsądna. Ostrzegam, że przy danych ocenzurowanych przedziałowo modele półparametryczne są zazwyczaj preferowane ze względu na trudność w ocenie dopasowania modelu, ale gdybym naprawdę myślał, że nie ma miejsca na modele w pełni parametryczne, nie uwzględniłbym ich
icenReg
.źródło
ic_sp
inicenReg
) i nie martwić się o to. Ponadto, patrząc na krzywe przeżycia dla dwóch grup, poprawnie odpowiada na twoje pytanie. Próba odtworzenia tego z logistycznego dopasowania może być wykonana, ale znowu, o wiele więcej pracy niż przy użyciu modeli przetrwania.Jest to przypadek cenzury / zgrubnych danych. Załóżmy, że uważasz, że Twoje dane pochodzą z dystrybucji z ładnie zachowanym ciągłym (itp.) Pdf i cdf . Standardowym rozwiązaniem dla danych czasu do zdarzenia, gdy znany jest dokładny czas zdarzenia dla podmiotu polega na tym, że udział prawdopodobieństwa wynosi . Jeśli wiemy tylko, że czas był większy niż (prawocenzurowanie), wówczas udział prawdopodobieństwa wynosi przy założeniu niezależnej cenzury. Jeśli wiemy, że czas jest krótszy niż (lewy cenzura), wówczas udział prawdopodobieństwa wynosiF ( x ) x i i f ( x i ) y i 1 - F ( y i ) z i F ( z i ) ( y i , z i ] F ( z i ) - F ( y i )f(x) F(x) xi i f(xi) yi 1−F(yi) zi F(zi) . Wreszcie, jeśli czas mieści się w pewnym przedziale , wówczas udział prawdopodobieństwa wynosiłby .(yi,zi] F(zi)−F(yi)
źródło
Wydaje się, że problem ten można rozwiązać dobrze za pomocą regresji logistycznej.
Masz dwa stany, A i B, i chcesz zbadać prawdopodobieństwo, czy dana osoba nieodwracalnie przełączyła się ze stanu A na stan B. Jedną podstawową zmienną predykcyjną byłby wiek w chwili obserwacji. Innym czynnikiem lub czynnikami będącymi przedmiotem zainteresowania byłyby dodatkowe zmienne predykcyjne.
Twój model logistyczny wykorzystałby wówczas rzeczywiste obserwacje stanu A / B, wieku i innych czynników do oszacowania prawdopodobieństwa bycia w stanie B jako funkcji tych predyktorów. Wiek, w którym to prawdopodobieństwo przekroczy 0,5, może być wykorzystany jako oszacowanie czasu przejścia, a następnie zbadałbyś wpływ innych czynników na przewidywany czas przejścia.
Dodano w odpowiedzi na dyskusję:
Podobnie jak w przypadku każdego modelu liniowego, musisz upewnić się, że twoje predyktory są przekształcone w taki sposób, aby miały liniową zależność od zmiennej wynikowej, w tym przypadku logarytmiczne prawdopodobieństwo przejścia do stanu B. To niekoniecznie trywialny problem. Odpowiedź @CliffAB pokazuje, w jaki sposób można zastosować transformację dziennika zmiennej wieku.
źródło