Próbuję modelować zmienną odpowiedzi, która teoretycznie jest ograniczona między -225 a +225. Zmienna to łączny wynik uzyskany przez badanych podczas gry. Chociaż teoretycznie możliwe jest zdobycie przez uczestników +225 punktów. Pomimo tego, ponieważ wynik zależał nie tylko od działań podmiotów, ale także działań innych działań, maksymalna liczba zdobytych punktów wyniosła 125 (jest to najwyższa liczba 2 graczy, którzy grają ze sobą), zdarzyło się to z bardzo dużą częstotliwością. Najniższy wynik to +35.
Ta granica 125 powoduje trudności z regresją liniową. Jedyne, co mogę wymyślić, to przeskalowanie odpowiedzi, tak aby zawierała się w przedziale od 0 do 1 i użycie regresji beta. Jeśli to zrobię, nie jestem jednak pewien, czy naprawdę mogę usprawiedliwić stwierdzenie, że 125 jest górną granicą (lub 1 po transformacji), ponieważ można zdobyć +225. Co więcej, gdybym to zrobił, jaka byłaby moja dolna granica 35?
Dzięki,
Jonathan
źródło
Odpowiedzi:
Chociaż nie jestem do końca pewien, na czym polega problem z regresją liniową, kończę teraz artykuł o tym, jak analizować ograniczone wyniki. Ponieważ nie znam regresji Beta, być może ktoś inny odpowie na tę opcję.
Po twoim pytaniu rozumiem, że masz prognozy poza granicami. W tym przypadku wybrałbym logistyczną regresję kwantową . Regresja kwantylowa jest bardzo zgrabną alternatywą dla regularnej regresji liniowej. Możesz patrzeć na różne kwantyle i uzyskać znacznie lepszy obraz swoich danych niż jest to możliwe przy zwykłej regresji liniowej. Nie ma również żadnych założeń dotyczących dystrybucji 1 .
Transformacja zmiennej może często wywoływać zabawny wpływ na regresję liniową, na przykład masz znaczenie w transformacji logistycznej, ale to nie przekłada się na wartość regularną. Nie jest tak w przypadku kwantyli, mediana jest zawsze medianą niezależnie od funkcji transformacji. Pozwala to na transformację tam iz powrotem bez zniekształcania czegokolwiek. Prof. Bottai zasugerował takie podejście do ograniczonych wyników 2 , jest to doskonała metoda, jeśli chcesz dokonywać indywidualnych prognoz, ale ma pewne problemy, gdy nie chcesz patrzeć na beta i interpretować je w sposób nielogiczny. Formuła jest prosta:
Gdzie jest twoim wynikiem, a jest dowolną małą liczbą.ϵy ϵ
Oto przykład, który zrobiłem jakiś czas temu, kiedy chciałem z nim eksperymentować w R:
Daje to następujące rozproszenie danych, jak widać, jest wyraźnie ograniczone i niewygodne :
Powoduje to następujący obraz, w którym kobiety wyraźnie znajdują się powyżej górnej granicy:
Daje to następujący wątek z podobnymi problemami:
Logistyczna regresja kwantylowa z bardzo ładną ograniczoną prognozą:
Tutaj możesz zobaczyć problem z wersją Beta, który w przekształconej formie różni się w różnych regionach (zgodnie z oczekiwaniami):
Bibliografia
Dla ciekawskich działki zostały utworzone przy użyciu tego kodu:
źródło
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , PDF online . Ma podobną motywację do modelowania rozkładów z efektami podłogi / sufitu.