Mam stąd dane o winie , które składają się z 11 liczbowych zmiennych niezależnych z zależną oceną związaną z każdym wpisem o wartościach od 0 do 10. To sprawia, że jest to świetny zestaw danych, aby użyć modelu regresji do zbadania relacji między zmiennymi a powiązanymi ocena. Czy jednak regresja liniowa byłaby odpowiednia, czy też lepiej zastosować wielomianową / uporządkowaną regresję logistyczną?
Regresja logistyczna wydaje się lepsza, biorąc pod uwagę określone kategorie, tj. Nie ciągłą zmienną zależną, ale (1) istnieje 11 kategorii (nieco za dużo?) I (2) po inspekcji, są tylko dane dla 6-7 z tych kategorii, tj. Pozostałe W kategoriach 5-4 nie ma żadnego przykładu w zestawie danych.
Z drugiej strony regresja liniowa powinna liniowo oszacować ocenę między 0-10, co wydaje się bliższe temu, co próbuję znaleźć; jednak zmienna zależna nie jest ciągła w zbiorze danych.
Jakie jest lepsze podejście? Uwaga: do analizy używam R.
Edytuj, odnosząc się do niektórych punktów wymienionych w odpowiedziach:
- Nie ma celu biznesowego, ponieważ tak naprawdę jest to na kurs uniwersytecki. Zadanie polega na przeanalizowaniu wybranego zestawu danych, w zależności od tego, co uważam za stosowne.
- Rozkład ocen wygląda normalnie (histogram / wykres qq). Rzeczywiste wartości w zestawie danych wynoszą od 3 do 8 (mimo że technicznie 0–10).
źródło
Nie jestem specjalistą od regresji logistycznej, ale powiedziałbym, że chcesz użyć wielomianu ze względu na dyskretną zmienną zależną.
Regresja liniowa może dawać współczynniki, które można ekstrapolować poza możliwe granice zmiennej zależnej (tzn. Wzrost zmiennej niezależnej prowadziłby do zmiennej zależnej poza twoją granicą dla danego współczynnika regresji).
Regresja wielomianowa da różne prawdopodobieństwa dla różnych wyników zmiennej zależnej (tj. Współczynnik twojej regresji da ci, w jaki sposób zwiększają swoje prawdopodobieństwo uzyskania lepszego wyniku, bez uzyskania wyniku poza granicami).
źródło
Inną możliwością jest użycie Losowego Lasu. Istnieją dwa sposoby pomiaru „ważności” zmiennej w Losowym lesie:
Lasy losowe są również podatne na rodzaj wizualizacji danych zwany „wykresem częściowej zależności”. Zobacz ten szczegółowy samouczek, aby uzyskać więcej szczegółów.
Częściowa zależność i znaczenie permutacji nie są specyficzne dla modeli Losowych Lasów, ale ich popularność wzrosła wraz z popularnością Losowych Lasów ze względu na efektywność ich obliczania dla modeli Losowych Lasów.
źródło