Mam procentowe stopnie studentów na 38 egzaminach jako zmienną zależną w moim badaniu. Procent rangi jest obliczany na podstawie (rangi studenta / liczby studentów na egzaminie). Ta zmienna zależna ma prawie jednolity rozkład i chcę oszacować wpływ niektórych zmiennych na zmienną zależną.
Jakiego podejścia regresji używam?
regression
distributions
syrena99
źródło
źródło
Odpowiedzi:
Jeśli pracujesz ze Statą, spójrz na następujący przykład: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Oto cytat z tej strony:
źródło
Streszczenie
Wyniki regresji mogą mieć pewną ograniczoną wartość, jeśli zostaną dokładnie zinterpretowane. Nieuniknione formy zmienności spowodują, że oszacowania współczynników znacznie się skurczą w kierunku zera. Potrzebny jest lepszy model, który obsługuje zmiany w bardziej odpowiedni sposób.
(Można zbudować model maksymalnego prawdopodobieństwa, ale może on być niewykonalny ze względu na wymagane obliczenia, które obejmują numeryczną ocenę całek wielowymiarowych. Liczby wymiarów są równe liczbie uczniów zapisanych na zajęcia.)
Wprowadzenie
Jako narrację informującą naszą intuicję, wyobraź sobie, że tych 38 egzaminów odbyło się w 38 osobnych kursach w ciągu jednego semestru w małej szkole z zapisaniem 200 studentów. W realistycznej sytuacji uczniowie będą mieli różne umiejętności i doświadczenia. Jako zastępcze miary tych umiejętności i doświadczeń możemy wziąć, powiedzmy, wyniki z matematyki SAT i testów werbalnych oraz rok na studiach (od 1 do 4).
Zazwyczaj uczniowie zapisują się na kursy zgodnie z ich umiejętnościami i zainteresowaniami. Początkujący rozpoczynają kursy wprowadzające, a kursy wprowadzające są wypełniane głównie przez pierwszoklasistów. Uczniowie wyższych klas i utalentowani pierwszoklasanci i absolwenci uczęszczają na kursy dla zaawansowanych i absolwentów. Ten wybór częściowo rozwarstwia uczniów, tak że wrodzone zdolności uczniów w każdej klasie są zazwyczaj bardziej jednorodne niż rozprzestrzenianie się umiejętności w szkole.
Zatem najzdolniejsi uczniowie mogą zdobyć punkty w dolnej części trudnych, zaawansowanych klas, w których się zapisują, podczas gdy najsłabsi uczniowie mogą zdobyć punkty w górnej części łatwych zajęć wprowadzających, które biorą. Może to mylić bezpośrednią próbę powiązania stopni egzaminu bezpośrednio z atrybutami uczniów i klas.
Analiza
Zindeksuj uczniów za pomocą i pozwól, aby atrybuty ucznia i zostały podane przez wektor x i . Indeksuj klasy za pomocą j i niech atrybuty klasy j będą podane przez wektor z j . Zbiór studentów uczestniczących w klasie j jest j .ja ja xja jot jot zjot jot ZAjot
Przyjmuje się, że „siły” każdy student jest funkcją ich atrybutów oraz niektóre wartość losową, która równie dobrze może mieć zerową średnią:sja
Egzamin modelujemy w klasie , dodając niezależne losowe wartości do siły każdego ucznia zapisanego do klasy i przekształcając je w szeregi. Skąd, jeśli uczeń I nie zapisze się do klasy j , ich względna pozycja R i , j jest określona przez ich pozycję w posortowanej tablicy wartościjot ja jot rja , j
Ta pozycja jest podzielona przez jeden więcej niż całkowita rejestracja klas, aby uzyskać zmienną zależną, stopień procentowy:rja , j
Twierdzę, że wyniki regresji zależą (całkiem sporo) od wielkości i struktury losowych (nieobserwowanych) wartości oraz δ i , j .εja δja , j Wyniki zależą również od tego, w jaki sposób uczniowie są zapisani na zajęcia. Powinno to być intuicyjnie oczywiste, ale tym, co nie jest tak oczywiste - i wydaje się trudne do analizy teoretycznej - jest to, w jaki sposób i jak bardzo nieobserwowane wartości i struktury klas wpływają na regresję.
Symulacja
Bez większego wysiłku możemy symulować tę sytuację, aby tworzyć i analizować niektóre przykładowe dane. Jedną z zalet symulacji jest to, że może ona obejmować prawdziwe mocne strony uczniów, których w rzeczywistości nie da się zaobserwować. Innym jest to, że możemy zmieniać typowe rozmiary nieobserwowanych wartości, a także przypisania klas. Zapewnia to „piaskownicę” do oceny proponowanych metod analitycznych, takich jak regresja.
Na początek ustawmy generator liczb losowych dla powtarzalnych wyników i określmy rozmiar problemu. Używam,
R
ponieważ jest dostępny dla każdego.Aby zapewnić realizm, twórzδja , j jot
n.classes
klasy o różnych trudnościach w dwóch skalach (matematycznej i werbalnej, z ujemną korelacją), prowadzonych na różnych poziomach akademickich (od 1 = wprowadzenie do 7 = badania) i ze zmienną łatwością. (W „łatwej” klasie różnice między poziomem uczenia się uczniów mogą być duże i / lub egzamin może w niewielkim stopniu dyskryminować uczniów. Jest to modelowane losowymi terminami które dla klasy j są zwykle duże Wyniki egzaminu będą wówczas prawie nieprzewidywalne na podstawie danych dotyczących siły ucznia. Gdy klasa nie jest „łatwa”, te losowe terminy są pomijalnie małe, a siła ucznia może idealnie określić ranking egzaminu.)Studenci są rozłożeni na cztery lata i obdarzeni losowymi wartościami swoich atrybutów. Nie ma korelacji między żadnym z tych atrybutów:
beta
beta
students$ability
beta$ability
beta$sigma
ease
classes
spread
assignments <-...
(Jako przykład tego, co osiągnął ten krok, patrz rysunek poniżej).
Do tych surowych danych dołączamy atrybuty ucznia i klasy, aby utworzyć zestaw danych odpowiedni do analizy:
Zorientujmy się, sprawdzając losową próbkę danych:
Na przykład rekord 118 mówi, że uczeń nr 28 zapisał się do klasy nr 1 i uzyskał 22 miejsce (od dołu) na egzaminie, uzyskując stopień procentowy 0,957. Ogólny poziom trudności tej klasy wynosił 0,0523 (bardzo łatwo). Łącznie zapisano 22 studentów. Ten student jest studentem drugiego roku (rok 2) z 590 matematyki, 380 ustnych wyników SAT. Ich ogólna wrodzona siła akademicka wynosi 16,9. W tym czasie zapisano ich na cztery klasy.
Ten zestaw danych jest zgodny z opisem w pytaniu. Na przykład rangi procentowe rzeczywiście są prawie jednolite (tak jak muszą być w przypadku każdego kompletnego zestawu danych, ponieważ rangi procentowe dla pojedynczej klasy mają dyskretny rozkład równomierny).
Pamiętaj, ze względu na współczynniki w
beta
tym modelu przyjęto silny związek między wynikami badań a zmiennymi przedstawionymi w tym zbiorze danych. Ale co pokazuje regresja? Zresetujmy logistykę rangi procentowej względem wszystkich obserwowalnych cech uczniów, które mogą być związane z ich umiejętnościami, a także wskaźników trudności klasowych:Wykresy diagnostyczne (
plot(fit)
) wyglądają szybko: reszty są homoscedastyczne i pięknie normalne (aczkolwiek nieco krótkie, co nie stanowi problemu); brak wartości odstających; i brak niepożądanego wpływu na jakąkolwiek obserwację.level
level
(Nawiasem mówiąc, użycie rang procentowych nieprzetworzonych w regresji nie zmienia jakościowo wyników przedstawionych poniżej.)
spread
spread
spread
1
Tym razem R-kwadrat został znacznie poprawiony (choć nadal nie jest świetny). Jednak wszystkie współczynniki wzrosły o 20 - 100%. Ta tabela porównuje je wraz z kilkoma dodatkowymi symulacjami:
spread
ability
ability
sigma
level
Ta szybka analiza pokazuje, że regresja, przynajmniej tak jak tutaj przeprowadzona, będzie mylić nieuniknione formy zmienności ze współczynnikami. Ponadto współczynniki zależą również (do pewnego stopnia) od tego, w jaki sposób uczniowie są podzieleni między klasy. Można to częściowo uwzględnić poprzez uwzględnienie atrybutów klasy wśród zmiennych niezależnych w regresji, jak to tutaj zrobiono, ale mimo to efekt rozkładu uczniów nie znika.
Jakikolwiek brak przewidywalności prawdziwych wyników uczniów oraz wszelkie różnice w uczeniu się uczniów i rzeczywistych wynikach egzaminów, najwyraźniej powodują, że szacunki współczynników kurczą się do zera. Wydaje się, że robią to jednolicie, co sugeruje, że względne współczynniki mogą być nadal znaczące.
źródło
nieobserwowane umiejętności ucznia są modelowane za pomocą losowego komponentu podczas gdy modeluje inne niesystematyczne nieobserwowalne. Korelację między odpowiedziami (badaniami) można zwiększyć, przyjmując ogólną strukturę kowariancji dla . Dlaczego nie ma białej (lub warstwowej / solidnej) struktury wariancji? Co więcej, niektóre korelacje odpowiedzi można uwzględnić w (zależność warunkowa).e i j e i j μ i jvi eij eij μij
(To tylko pomysł z mojego stronniczego doświadczenia, komentarze i krytycy są mile widziane.)
Nieobserwowalne zdolności prawdopodobnie będą skorelowane z atrybutami obserwowalnych uczniów lub egzaminów w . Dzięki tym założeniom model ten jest RE z skorelowanymi składnikami błędu, które można oszacować za pomocą ML lub estymatora dwustopniowego: pierwszy etap: transformacja wewnątrz (lub analogowa), która eliminuje . Drugi etap: OLS na przekształconym modelu. v iμij vi
źródło
Możesz spróbować regresji logistycznej. Logit transform rozłoży twoją zmienną odpowiedzi na rzeczywistą linię, więc nie dostaniesz absurdalnie przewidywanych procentów rangi, takich jak -3% lub + 110%.ln(p1−p)
źródło
Idealny model w tym przypadku odwzoruje dane wejściowe (bez względu na towarzyszące im zmienne) na dane wyjściowe (ranga ucznia w klasie). Innym sposobem myślenia o tym jest mapowanie najpierw na wyniki, a następnie mapowanie tych wyników na rangę. Na razie zamierzam zignorować błąd.
Wydaje się to być dość podobne do formy funkcjonalnej uogólnionego modelu liniowego. Myślę, że właśnie dlatego regresję logistyczną zaproponował @Mike Anderson. Jeśli wyniki twojego egzaminu byłyby rozłożone logistycznie, wówczas funkcją linku byłaby logit (odwrotnie jest to funkcja gęstości skumulowanej, na której nam zależy). Podobnie, jeśli wyniki byłyby normalnie rozłożone, funkcją probit byłaby funkcja łączenia.
Dla twojej regresji jedynym sposobem oszacowania rang jest powiedzenie „biorąc pod uwagę, że moje dane są dystrybuowane jako X, ten punkt jest w 34. percentylu”. W przeciwnym razie, skąd wiesz, co oznacza wzrost wyniku testu o dwa punkty w kategoriach rangi? Zastrzeżenie polega na tym, że musisz oszacować ten rozkład, aby wybrać funkcję linku (niektóre formy funkcjonalne znacznie ułatwią ci życie). Co więcej, ten model nie powie „byłeś szóstym najlepszym z klasy 38”, a raczej „gdyby wyniki testu były podzielone tak, jak nam się wydaje, wynik byłby na poziomie 15 percentyla”.
źródło