Gdy odpowiedź lub wynik Y jest ograniczony, pojawiają się różne pytania dotyczące dopasowania modelu, w tym następujące:
Każdy model, który mógłby przewidzieć wartości odpowiedzi poza tymi granicami, jest co do zasady wątpliwy. W związku z tym stosuje się model liniowy może być problematyczne, ponieważ nie ma granic na Y = X b predykcyjnych X i współczynników b każdym przypadku, gdy X jest nieograniczona się w jednym lub w obu kierunkach. Jednak związek może być na tyle słaby, aby nie gryźć i / lub przewidywania mogą pozostać w granicach przekraczających obserwowany lub prawdopodobny zakres predyktorów. Z jednej strony, jeśli odpowiedź jest jakaś średnia + hałas, nie ma znaczenia, który model pasuje.Y^= XbXbX+
Ponieważ odpowiedź nie może przekroczyć swoich granic, nieliniowy związek jest często bardziej prawdopodobny, a przewidywane odpowiedzi dostosowują się do asymptotycznego zbliżania się do granic. Krzywe sigmoidalne lub powierzchnie, takie jak te przewidywane przez modele logit lub probit, są atrakcyjne pod tym względem i obecnie nie są trudne do dopasowania. Odpowiedź taka jak umiejętność czytania i pisania (lub ułamek przyjmujący nowy pomysł) często pokazuje taką sigmoidalną krzywą w czasie i prawdopodobnie z prawie każdym innym predyktorem.
Ograniczona odpowiedź nie może mieć oczekiwanych właściwości wariancji w regresji zwykłej lub waniliowej. Koniecznie, gdy średnia odpowiedź zbliża się do dolnej i górnej granicy, wariancja zawsze zbliża się do zera.
Model powinien zostać wybrany zgodnie z tym, co działa i wiedza na temat podstawowego procesu generowania. To, czy klient lub odbiorca wie o konkretnych rodzinach modeli, może również stanowić wskazówkę w praktyce.
Pamiętaj, że celowo unikam ogólnych osądów, takich jak dobre / złe, odpowiednie / nieodpowiednie, właściwe / złe. Wszystkie modele są w najlepszym razie przybliżeniami, a które z apelacji są atrakcyjne lub wystarczające dla projektu, nie są tak łatwe do przewidzenia. Zazwyczaj osobiście preferuję modele logit jako pierwszy wybór dla ograniczonych odpowiedzi, ale nawet ta preferencja jest częściowo oparta na nawyku (np. Moim unikaniu modeli probitowych bez bardzo dobrego powodu), a częściowo na tym, gdzie przekażę wyniki, zwykle czytelnikom, które są, lub powinien być statystycznie dobrze poinformowany.
Twoje przykłady skal dyskretnych dotyczą wyników 1-100 (w zadaniach oznaczam 0, z pewnością jest możliwe!) Lub rankingów 1-17. W przypadku takich skal zwykle myślałem o dopasowaniu modeli ciągłych do odpowiedzi skalowanych do [0, 1]. Są jednak praktycy modeli regresji porządkowej, którzy chętnie dopasowaliby takie modele do skal o dość dużej liczbie dyskretnych wartości. Cieszę się, jeśli odpowiedzą, jeśli mają takie zdanie.
Spójrz na przewidywane wartości i sprawdź, czy mają one mniej więcej taki sam rozkład jak oryginalne Y. W takim przypadku regresja liniowa jest prawdopodobnie w porządku. i niewiele zyskasz, ulepszając swój model.
źródło
Regresja liniowa może „odpowiednio” opisywać takie dane, ale jest mało prawdopodobne. Wiele założeń regresji liniowej jest często naruszanych w tego typu danych do tego stopnia, że regresja liniowa staje się niewłaściwa. Jako przykład wybiorę kilka założeń,
Naruszenie tych założeń jest łagodzone, jeśli dane mają tendencję do spadania wokół środka zakresu, z dala od krawędzi. Ale tak naprawdę regresja liniowa nie jest optymalnym narzędziem dla tego rodzaju danych. Znacznie lepszymi alternatywami mogą być regresja dwumianowa lub regresja Poissona.
źródło
Jeśli odpowiedź obejmuje tylko kilka kategorii, możesz użyć metod klasyfikacji lub regresji porządkowej, jeśli zmienna odpowiedzi jest porządkowa.
Zwykła regresja liniowa nie da ani dyskretnych kategorii, ani ograniczonych zmiennych odpowiedzi. To ostatnie można naprawić za pomocą modelu logit, takiego jak regresja logistyczna. Dla czegoś w rodzaju wyniku testu ze 100 kategoriami 1-100 równie dobrze możesz uprościć swoje przewidywania i użyć ograniczonej zmiennej odpowiedzi.
źródło
użyj cdf (skumulowana funkcja rozkładu ze statystyk). jeśli twój model to y = xb + e, zmień go na y = cdf (xb + e). Konieczne będzie ponowne przeskalowanie danych zmiennych zależnych, aby mieściły się w przedziale od 0 do 1. Jeśli są to liczby dodatnie, podziel je przez maksimum i weź prognozy modelu i pomnóż przez tę samą liczbę. Następnie sprawdź dopasowanie i sprawdź, czy ograniczone prognozy poprawią sytuację.
Prawdopodobnie chcesz użyć algorytmu w puszce, aby zająć się statystykami.
źródło