Mam 5 zmiennych i staram się przewidzieć moją zmienną docelową, która musi mieścić się w zakresie od 0 do 70.
Jak wykorzystać tę informację do lepszego modelowania celu?
źródło
Mam 5 zmiennych i staram się przewidzieć moją zmienną docelową, która musi mieścić się w zakresie od 0 do 70.
Jak wykorzystać tę informację do lepszego modelowania celu?
Nie musisz nic robić. Możliwe, że predyktor będzie działał dobrze. Nawet jeśli predyktor dokonuje ekstrapolacji na wartości spoza zakresu, możliwe, że zablokowanie prognoz do zakresu (to znaczy użyj zamiast ) dobrze. Sprawdź poprawność modelu, aby zobaczyć, czy to działa.
Jednak ograniczony zakres rodzi możliwość nieliniowej zależności między zmienną zależną ( ) a zmiennymi niezależnymi ( ). Niektóre dodatkowe wskaźniki tego obejmują:
Większa zmienność wartości resztkowych, gdy znajduje się w środku zakresu, w porównaniu do zmian reszt na obu końcach zakresu.
Teoretyczne powody specyficznych relacji nieliniowych.
Dowody błędnej specyfikacji modelu (uzyskane w zwykły sposób).
Znaczenie wyrażeń kwadratowych lub wyższych rzędów w .
Rozważ nieliniową ponowną ekspresję w przypadku wystąpienia któregokolwiek z tych warunków.
Istnieje wiele sposobów ponownego wyrażenia aby stworzyć bardziej liniowe relacje z . Na przykład dowolną funkcję rosnącą zdefiniowaną w przedziale można „złożyć”, aby utworzyć symetryczną funkcję rosnącą przez . Jeśli staje się dowolnie duże i negatywne jako jej argument zbliża , złożona wersja mapuje do wszystkich liczb rzeczywistych. Przykłady takich funkcji obejmują logarytm i dowolną moc ujemną. Korzystanie z logarytmu jest równoważne „linkowi logit” zalecanemu przez @ user603. Innym sposobem jest pozwolenie być odwrotnym CDF o dowolnym rozkładzie prawdopodobieństwa i zdefiniować . Zastosowanie rozkładu normalnego daje transformację „probit”.
Jednym ze sposobów wykorzystania rodzin transformacji jest eksperymentowanie: spróbuj prawdopodobnej transformacji, wykonaj szybką regresję transformowanego względem i przetestuj reszty: powinny one wydawać się niezależne od przewidywanych wartości (homoscedastyczne i nieskorelowane) . Są to oznaki liniowej zależności ze zmiennymi niezależnymi. Pomaga to również, jeśli reszty przewidywanych wartości przekształconych wstecznie wydają się być małe. Oznacza to, że transformacja poprawiła dopasowanie. Aby oprzeć się efektom wartości odstających, użyj solidnych metod regresji, takich jak iteracyjnie przeważone najmniejsze kwadraty .
Ważne jest, aby rozważyć, dlaczego twoje wartości są ograniczone w zakresie 0–70. Na przykład, jeśli jest to liczba poprawnych odpowiedzi w teście złożonym z 70 pytań, należy rozważyć modele zmiennych „liczby sukcesów”, takich jak nadmierna regresja dwumianowa. Inne powody mogą prowadzić do innych rozwiązań.
źródło
Transformacja danych: przeskaluj swoje dane, aby leżeć w i modeluj je za pomocą modelu glm z łączem logit.[0,1]
Edycja: Kiedy przeskalujesz wektor (tj. Podzielisz wszystkie elementy przez największy wpis), co do zasady, zanim to zrobisz, sprawdź (gałki oczne) pod kątem wartości odstających.
AKTUALIZACJA
Zakładając, że masz dostęp do R, część modelowania za pomocą solidnej procedury , patrz w pakiecie .glmrob() robustbase
źródło