Biorąc pod uwagę dwa modele regresji liniowej, który model byłby lepszy?

14

Na studiach podjąłem kurs uczenia maszynowego. W jednym z quizów zadano to pytanie.

Model 1:

y=θx+ϵ
Model 2:
y=θx+θ2x+ϵ

Który z powyższych modeli lepiej pasowałby do danych? (załóżmy, że dane mogą być modelowane przy użyciu regresji liniowej)

Prawidłowa odpowiedź (zdaniem profesora) jest taka, że ​​oba modele działałyby równie dobrze. Uważam jednak, że pierwszy model byłby lepiej dopasowany.

To jest powód mojej odpowiedzi. Drugi model, który można przepisać jako αx+ϵ , α=θ+θ2 , nie będzie taki sam jak pierwszy model. α jest w rzeczywistości parabolą, a zatem ma wartość minimalną ( 0.25 w tym przypadku - 0,25 ). Z tego powodu zakres θ w pierwszym modelu jest większy niż zakres α w drugim modelu. Dlatego jeśli dane były takie, że najlepsze dopasowanie miało nachylenie mniejsze niż 0.25 , drugi model działałby bardzo słabo w porównaniu z pierwszym. Jednak w przypadku, gdy nachylenie najlepszego dopasowania było większe niż0.25 , oba modele wypadłyby równie dobrze.

Czy pierwszy jest lepszy, czy oba są dokładnie takie same?

kush
źródło
3
Myślę że masz rację. Wymaganie, aby parametr był wyrażalny jako θ + θ 2 (dla niektórych θ ), rzeczywiście wymusza ograniczenie tego, co α jest możliwe. Oznacza to, że drugi model może wyrażać mniej zależności niż pierwszy, ponieważ jest to zasadniczo ograniczony problem optymalizacji. Twoje rozumowanie wydaje mi się solidne. αθ+θ2θα
Matthew Drury,
@MatthewDrury Właśnie zorientowałem się, gdzie popełniłem błąd, spójrz na odpowiedź poniżej (i komentarz)
kush
3
Widzę twój komentarz, ale jest to dość poważna gimnastyka, która zakłada, że przyjąłby złożone wartości. Na pewno będę uczestniczył w kilku godzinach pracy, aby porozmawiać o tym z profesorem. Tak czy inaczej uzyskasz dobrą dyskusję. θ
Matthew Drury,
1
Nie jest dla mnie jasne, skąd pochodzi -0,25. Możesz wyjaśnić?
Mad Jack
1
Byłbym zainteresowany tym, jak twój profesor dopasowałby każdy model do dwupunktowego zestawu danych . W przypadku Modelu 1 i θ = - 1 dopasowanie jest idealne, ale jak oceniłby θ w Modelu 2, aby uzyskać idealne dopasowanie? {(1,1),(2,2)}θ=1θ
whuber

Odpowiedzi:

9

Model 2 można zapisać jako: Wydaje się to podobne do modelu 1, tylko z inną notacją dla hiperparametrów ( θ , β ). Jednak dla modelu 1 możemy zapisać θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

But since in model 2 we have that

β=θ+θ2,
then as you mentioned indeed the range of β^ should belong to [0.25,+] for θR. Which will lead to difference in these 2 models.

θ^

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
However in the model 2 the estimate is obtained through
β^=argminβ0.25  (yXβ)(yXβ)
which might lead to a different result.
Wis
źródło
1
That makes sense, it just struck me that there is no constraint on θ in the second model! In case θ+θ2 is negative, θ might have complex values. However that doesn't really affect the model, right? I don't have rep to upvote, but thanks a lot!
kush
@kush Please check my edited response that also adresses your concern
Wis
1

Not sure I understand your reasoning. If you take:

y=αx+ϵ
and
y=θx+ϵ

and estimate α and θ using a simple linear regression, you will get α=θ. Moreover, since the methodology is exactly the same there is no difference in the R2 value you would get in either equation. The underlying value of θ in the first equation will of course be different, since α=θ+θ2, but this has nothing to do with fit.

akeenlogician
źródło
5
θ in the first model can take any value in range (,) However α in the second model can take values only in range (0.25,). So when we treat both of them as a simple linear regression model, are we not putting a restriction on the coefficient of x (in the second model)? Wouldn't this raise an issue in case the best fit for the data has a negative slope?
kush