Czy ktoś może mi wyjaśnić prawdziwą różnicę między analizą regresji a dopasowaniem krzywej (liniową i nieliniową), podając przykład, jeśli to możliwe?
Wydaje się, że obie próbują znaleźć związek między dwiema zmiennymi (zależne vs niezależne), a następnie określić parametr (lub współczynnik) związany z proponowanymi modelami. Na przykład, jeśli mam zestaw danych, takich jak:
Y = [1.000 1.000 1.000 0.961 0.884 0.000]
X = [1.000 0.063 0.031 0.012 0.005 0.000]
Czy ktoś może zasugerować wzór korelacji między tymi dwiema zmiennymi? Mam problem ze zrozumieniem różnicy między tymi dwoma podejściami. Jeśli wolisz wesprzeć swoją odpowiedź innymi zestawami danych, to jest OK, ponieważ wydaje się, że trudno jest je dopasować (być może tylko dla mnie).
Powyższy zestaw danych przedstawia i y osi o charakterystyki roboczej odbiorcy (ROC), gdzie Y jest rzeczywisty wskaźnik pozytywny (TPR), a x jest fałszywie dodatnich (FPR).
Próbuję dopasować krzywą lub przeprowadzić analizę regresji zgodnie z moim pierwotnym pytaniem, jeszcze nie jestem pewien, spośród tych punktów, aby oszacować TPR dla dowolnego konkretnego FPR (lub odwrotnie).
Po pierwsze, czy naukowo dopuszczalne jest znalezienie takiej funkcji dopasowania krzywej między dwiema zmiennymi niezależnymi (TPR i FPR)?
Po drugie, czy naukowo dopuszczalne jest znalezienie takiej funkcji, jeśli wiem, że rozkłady rzeczywistych przypadków ujemnych i rzeczywistych przypadków dodatnich nie są normalne?
źródło
Odpowiedzi:
Wątpię, czy istnieje wyraźne i konsekwentne rozróżnienie między naukami i dziedzinami o statystycznym nastawieniu między regresją a dopasowaniem krzywej .
Regresja bez kwalifikacji oznacza regresję liniową i oszacowanie metodą najmniejszych kwadratów. To nie wyklucza innych lub szerszych zmysłów: w istocie, kiedy zezwolisz na logit, Poissona, ujemną regresję dwumianową itp., Itp., Trudniej jest dostrzec, które modelowanie w pewnym sensie nie jest regresją.
Dopasowanie krzywej dosłownie sugeruje krzywą, którą można narysować na płaszczyźnie lub przynajmniej w małej przestrzeni. Regresja nie jest tak ograniczona i może przewidywać powierzchnie w przestrzeni wielowymiarowej.
Dopasowanie krzywej może, ale nie musi, wykorzystywać regresję liniową i / lub najmniejszych kwadratów. Może odnosić się do dopasowania wielomianu (szeregu mocy) lub zestawu terminów sinus i cosinus lub w inny sposób faktycznie kwalifikować się jako regresja liniowa w kluczowym znaczeniu dopasowania formy funkcjonalnej liniowej w parametrach. Rzeczywiście, dopasowanie krzywej, gdy regresja nieliniowa jest również regresją.
Termin dopasowanie krzywej może być użyty w dyskredytującym, uwłaczającym, deprecjonującym lub lekceważącym sensie („to tylko dopasowanie krzywej!”) Lub (prawie całkowicie odwrotnie) może odnosić się do dopasowania określonej krzywej starannie dobranej z konkretną fizyczną (biologiczną, ekonomiczne, cokolwiek) uzasadnienie lub dostosowane do konkretnych rodzajów zachowania początkowego lub ograniczającego (np. bycie zawsze pozytywnym, ograniczonym w jednym lub obu kierunkach, monotonicznym, z przegięciem, z jednym punktem zwrotnym, oscylacyjnym itp.).
Jednym z kilku niejasnych zagadnień jest to, że ta sama funkcjonalna forma może być w najlepszym razie empiryczna w niektórych okolicznościach, a doskonała teoria w innych. Newton nauczał, że trajektorie pocisków mogą być paraboliczne i dlatego w naturalny sposób dopasowywane przez kwadratyków, podczas gdy kwadratowe dopasowanie do zależności od wieku w naukach społecznych jest często tylko krówką, która pasuje do pewnej krzywizny danych. Rozkład wykładniczy jest naprawdę dobrym przybliżeniem dla izotopów promieniotwórczych i czasami niezbyt szalonym przypuszczeniem, w jaki sposób wartości ziemi spadają wraz z odległością od centrum.
Twój przykład nie otrzymuje ode mnie żadnych wyraźnych domysłów. Chodzi przede wszystkim o to, że przy bardzo małym zestawie danych i dokładnie bez informacji o tym, jakie są zmienne lub jak powinny się zachowywać, sugerowanie formy modelu byłoby nieodpowiedzialne lub głupie. Być może dane powinny gwałtownie wzrosnąć od (0, 0), a następnie zbliżyć się (1, 1), a może coś innego. Ty nam powiedz!
Uwaga. Ani regresja, ani dopasowanie krzywej nie ogranicza się do pojedynczych predyktorów lub pojedynczych parametrów (współczynników).
źródło
Oprócz doskonałej odpowiedzi @ NickCox (+1), chciałem podzielić się subiektywnym wrażeniem na temat niejasnej terminologii . Myślę, że dość subtelna różnica między tymi dwoma terminami polega na tym, co następuje. Z jednej strony regresja często, jeśli nie zawsze, oznacza rozwiązanie analityczne (odniesienie do regresorów oznacza określenie ich parametrów , stąd mój argument o rozwiązaniu analitycznym). Z drugiej strony dopasowanie krzywej niekoniecznie oznacza stworzenie rozwiązania analitycznego, a IMHO często może być i jest stosowane jako podejście eksploracyjne .
źródło