Wyjaśnienie modelu Tobit

13

Mamy 100 uczestników w dwóch grupach, n=50w każdej grupie. Zastosowaliśmy ocenę zdolności podstawowego funkcjonowania w 4 punktach czasowych. Ocena składa się z 6 pytań, każde z wynikiem 0–5. Nie mamy indywidualnych wyników dla każdego pytania, tylko łączne wyniki z zakresu od 0 do 30. Wyższe wyniki wskazują na lepsze funkcjonowanie. Problem polega na tym, że ocena jest bardzo podstawowa i ma znaczący efekt pułapu. Wyniki są bardzo negatywnie wypaczone. Większość uczestników uzyskała wynik blisko 30, szczególnie w 3 punktach kontrolnych. Jest prawdopodobne, że nie wszyscy uczestnicy, którzy osiągnęli górne limity, są naprawdę równi pod względem umiejętności: niektórzy uczestnicy mieli zaledwie 30 punktów, a inni z łatwością zdobyli 30 i osiągnęliby znacznie wyższy wynik, gdyby było to możliwe, więc dane są ocenzurowane z góry.

Chcę porównać te dwie grupy z czasem, ale oczywiście jest to bardzo trudne, biorąc pod uwagę charakter wyników. Wszelkie transformacje nie mają znaczenia. Powiedziano mi, że model Tobita jest najlepiej wyposażony do tej oceny i mogę przeprowadzić analizę w R, korzystając z przykładów z pracy Arne Henningen, Szacowanie modeli regresji ocenzurowanej w R przy użyciu pakietu censReg .

Mam jednak podstawową wiedzę statystyczną i stwierdziłem, że informacje o modelu Tobita są dość skomplikowane. Muszę być w stanie wyjaśnić ten model prostym językiem i nie mogę znaleźć prostego języka, orzechów i śrub wyjaśniających, co faktycznie robi model Tobit i jak. Czy ktoś może wyjaśnić model Tobita lub skierować mnie w stronę czytelnego źródła bez skomplikowanych wyjaśnień statystycznych i matematycznych?

Niezwykle wdzięczny za wszelką pomoc

Adam
źródło

Odpowiedzi:

8

Wiki opisuje model Tobita w następujący sposób:

yi={yiifyi>0 0ifyi0

yi=βxi+ui

uiN(0,σ2)

Dostosuję powyższy model do twojego kontekstu i przedstawię prostą angielską interpretację równań, która może być pomocna.

yi={ yiifyi3030ifyi>30

yi=βxi+ui

uiN(0,σ2)

yi

  1. yi=30ifyi>30

  2. yi=yiifyi30

  3. yixi

Mam nadzieję, że to jest pomocne. Jeśli jakiś aspekt nie jest jasny, możesz zapytać w komentarzach.

Varty
źródło
Varty, bardzo doceniam twoją odpowiedź. To było bardzo pomocne i bardzo szybkie! Nie jestem pewien, czy czuję się dobrze, tłumacząc to jeszcze, ale będę czytać dalej. Jeśli znasz jakieś czytelne teksty na Tobit, prosimy o przesłanie ich dalej. Wielkie dzięki jeszcze raz
Adam
4

W wydaniu American Sociological Review (wydanie trzecie) z 1983 r. Znajduje się artykuł Berka - tak dowiedziałem się o cenzurze. Wyjaśnienie dotyczy przede wszystkim stronniczości wyboru, ale jest absolutnie związane z Twoim problemem. Bias selekcji, o którym mówi Berk, to po prostu cenzura w procesie doboru próby, w twoim przypadku cenzura jest wynikiem niewrażliwego instrumentu. Jest kilka ładnych wykresów, które pokazują dokładnie, jak możesz oczekiwać, że twoja linia regresji będzie stronnicza, gdy Y jest ocenzurowane na różne sposoby. Ogólnie rzecz biorąc, artykuł jest logiczny i intuicyjny, a nie matematyczny (tak, traktuję je jako osobne, preferując pierwsze). Tobit jest omawiany jako jedno rozwiązanie problemu.

Mówiąc bardziej ogólnie, wydaje się, że tobit jest właściwym narzędziem do danego zadania. Zasadniczo działa to poprzez oszacowanie prawdopodobieństwa cenzury, a następnie włączenie tego do równania przewidującego wynik. Jest inne podejście zaproponowane przez Heckmana z wykorzystaniem probit i współczynnika odwrotności młynów, które jest w zasadzie takie samo, ale pozwala na różne zmienne przewidujące prawdopodobieństwo cenzury i wynik testu - oczywiście nie byłoby to odpowiednie w przypadku sytuacji, w której mieć.

Jeszcze jedno zalecenie - możesz rozważyć hierarchiczny model tobitowy, w którym obserwacje są zagnieżdżone w obrębie poszczególnych osób. To właściwie wyjaśniałoby tendencję do kojarzenia błędów w obrębie poszczególnych osób. Lub jeśli nie używasz modelu hierarchicznego, przynajmniej upewnij się, że dostosowałeś standardowe błędy do grupowania obserwacji w obrębie poszczególnych osób. Wiem, że wszystko to można zrobić w Stata i jestem przekonany, że R ze względu na swoją wszechstronność może to zrobić .. ale jako zapalony użytkownik Stata nie mogę zapewnić żadnych wskazówek, jak to zrobić w R.

Wola
źródło
Przypuszczam, że jest to pełny cytat do artykułu @ Will będzie odnosić się do: Berk, RA (1983). Wprowadzenie do stronniczości selekcji próbek w danych socjologicznych. American Sociological Review, 48, 386-398. doi: 10.2307 / 2095230 Istnieje kilka swobodnie dostępnych wersji tego artykułu, które można znaleźć w Google Scholar, np.
crsh,