Określanie najlepszej funkcji dopasowania krzywej spośród funkcji liniowych, wykładniczych i logarytmicznych

18

Kontekst:

Z pytania dotyczącego wymiany stosów matematycznych (czy mogę zbudować program) , ktoś ma zestaw punktów i chce dopasować do niego krzywą, liniową, wykładniczą lub logarytmiczną. Zwykłą metodą jest rozpoczęcie od wybrania jednego z nich (który określa model), a następnie wykonanie obliczeń statystycznych.x-y

Ale tak naprawdę potrzebne jest znalezienie „najlepszej” krzywej z liniowej, wykładniczej lub logarytmicznej.

Pozornie można wypróbować wszystkie trzy i wybrać najlepiej dopasowaną krzywą z trzech zgodnie z najlepszym współczynnikiem korelacji.

Ale jakoś czuję, że to nie jest całkiem koszerne. Ogólnie przyjętą metodą jest najpierw wybranie modelu, jednej z tych trzech (lub innej funkcji łącza), a następnie na podstawie danych obliczyć współczynniki. I zbieranie po fakcie to, co najlepsze, to zbieranie wiśni. Ale dla mnie, czy określasz funkcję lub współczynniki na podstawie danych, to wciąż jest to samo, twoja procedura odkrywa najlepszą ... rzecz (powiedzmy, która funkcja jest również -wykryj inny współczynnik).

Pytania:

  • Czy właściwe jest wybranie najlepszego modelu spośród modeli liniowych, wykładniczych i logarytmicznych na podstawie porównania statystyk dopasowania?
  • Jeśli tak, jaki jest najbardziej odpowiedni sposób to zrobić?
  • Jeśli regresja pomaga znaleźć parametry (współczynniki) w funkcji, to dlaczego nie może istnieć dyskretny parametr do wyboru, z której z trzech rodzin krzywych najlepiej pochodzić?
Mitch
źródło
1
Dla Twojej wygody dodałem tag wyboru modelu : połączenie go spowoduje utworzenie dużej liczby bezpośrednio powiązanych wątków. Inne tagi warte obejrzenia to aic . W końcu powinieneś odkryć, że w matematycznym stwierdzeniu tego problemu brakuje dwóch zasadniczych elementów: opisu tego, w jaki sposób i dlaczego punkty mogą odbiegać od krzywej teoretycznej oraz wskazania kosztu nie uzyskania dokładnie właściwej krzywej. Bez tych elementów istnieje wiele różnych podejść, które mogą dać różne odpowiedzi, co pokazuje, że „najlepsze” jest źle zdefiniowane.
whuber
1
Możesz odłożyć procent swoich danych, aby przeprowadzić walidację w modelu i wybrać model, który najlepiej pasuje do tego zestawu danych walidacyjnych. Zasadniczo dysponowałbyś trzema odrębnymi zestawami do podzielenia danych na 1. dane do trenowania jednego modelu 2. dane potwierdzające każdy model, który pozwala wybrać najlepszy model oraz 3. twoje rzeczywiste dane ostatecznej weryfikacji, które nie zostały zmienione .
kleineg
1
@kleineg To brzmi jak właściwy kierunek. Wybór modelu (np. Między lin / exp / log) jest jak hiperparametr pojedynczego modelu, który jest pod pewnymi względami tylko kolejnym etapem regularnych parametrów, a przejście do niego przez oddzielne etapy pociągu / zatwierdzenia / testu można uogólnić.
Mitch,
Istotne: {Subtelny sposób na przełożenie] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - wybór pomiędzy wieloma funkcjami modelu (np. Exp vs linear vs log) jest po prostu inny parametr. Można by pomyśleć o tym jako hiperparametrze (który wymagałby kroku sprawdzania poprawności) lub zwykłym parametrze w skomplikowanej funkcji kombinacji (gdzie byłby testowany w kroku testowym).
Mitch

Odpowiedzi:

9
  • Możesz wypróbować bezpłatne oprogramowanie o nazwie Eureqa . Ma to na celu zautomatyzowanie procesu znajdowania zarówno formy funkcjonalnej, jak i parametrów danej relacji funkcjonalnej.
  • Jeśli porównujesz modele o różnych liczbach parametrów, zazwyczaj będziesz chciał zastosować miarę dopasowania, która będzie karać modele o większej liczbie parametrów. Istnieje bogata literatura, w której miara dopasowania jest najbardziej odpowiednia do porównywania modeli, a problemy komplikują się, gdy modele nie są zagnieżdżone. Chciałbym usłyszeć, co inni uważają za najbardziej odpowiedni wskaźnik porównania modeli, biorąc pod uwagę twój scenariusz (na marginesie, ostatnio na moim blogu była dyskusja na temat wskaźników porównania modeli w kontekście porównywania modeli do dopasowania krzywej).
  • Z mojego doświadczenia wynika, że ​​modele regresji nieliniowej są używane z powodów wykraczających poza czystą statystyczną zgodność z podanymi danymi:
    1. Modele nieliniowe dają bardziej prawdopodobne prognozy poza zakresem danych
    2. Modele nieliniowe wymagają mniej parametrów dla równoważnego dopasowania
    3. Modele regresji nieliniowej są często stosowane w domenach, w których prowadzone są znaczne badania i wybór modelu przewodniego teorii.
Jeromy Anglim
źródło
5

To pytanie jest ważne w bardzo różnych domenach.

Najlepszy model to taki, który może przewidzieć punkty danych, które nie zostały użyte podczas estymacji parametru. Idealnie byłoby obliczyć parametry modelu z podzestawem zestawu danych i ocenić wydajność dopasowania w innym zestawie danych. Jeśli jesteś zainteresowany szczegółami, wyszukaj za pomocą „cross-validation”.

Tak więc odpowiedź na pierwsze pytanie brzmi „nie”. Nie możesz po prostu wybrać najlepiej dopasowanego modelu. Obraz, w którym dopasowujesz wielomian o stopniu N do N punktów danych. Będzie to idealne dopasowanie, ponieważ cały model dokładnie przekaże wszystkie punkty danych. Jednak ten model nie uogólnia na nowe dane.

O ile mogę powiedzieć, najodpowiedniejszym sposobem jest obliczenie, ile twój model może uogólnić na inne zbiory danych przy użyciu mierników, które karzą jednocześnie amplitudę reszt i liczbę parametrów w twoim modelu. AIC i BIC to niektóre z tych wskaźników, o których wiem.

bonobo
źródło
3

Ponieważ wiele osób rutynowo sprawdza dopasowanie różnych krzywych do swoich danych, nie wiem, skąd pochodzą Twoje rezerwacje. To prawda, że ​​istnieje kwadrat, który zawsze będzie pasował co najmniej tak samo, jak liniowy, i sześcienny, co najmniej tak samo jak kwadrat, więc istnieją sposoby na przetestowanie istotności statystycznej dodania takiego nieliniowego terminu, a tym samym unikaj niepotrzebnej złożoności. Ale podstawową praktyką testowania wielu różnych form relacji jest po prostu dobra praktyka. W rzeczywistości można zacząć od bardzo elastycznej regresji lessowej, aby zobaczyć, jaki rodzaj krzywej jest najbardziej prawdopodobny do dopasowania.

rolando2
źródło
3
To, czy kwadrat będzie lepiej pasował, będzie zależeć od tego, jak dobrze dopasowałeś operację. W szczególności, jeśli zastosujesz miarę dopasowania, która karze modele o większej liczbie parametrów (np. AIC), wówczas na przykład dopasowanie może być gorsze dla kwadratu w porównaniu do liniowego.
Jeromy Anglim,
9
@rolando, być może nie rozumiem, ale, szczerze mówiąc, tego rodzaju (niewykwalifikowana) rada jest właśnie taką rzeczą, z którą, jako statystycy, spędzamy tyle czasu na „walce”. W szczególności, jeśli OP jest zainteresowany czymś poza prostym dopasowaniem krzywej, np. Prognozowaniem lub wnioskowaniem, bardzo ważne jest zrozumienie implikacji podejścia „po prostu spróbuj, co tylko możesz” o statystyce.
kardynał
2
Mam problem z pogodzeniem tych komentarzy z tradycją Anscombe, Tukey, Mosteller, Tufte i Cleveland, która podkreśla potrzebę wizualizacji i eksploracji danych oraz zmiany kształtu każdej relacji przed zbudowaniem modelu, ustaleniem współczynników lub generowanie innych statystyk.
rolando2
8
Istnieje wiele kontrowersji dotyczących ich podejścia. Zbyt uproszczonym sposobem podsumowania tych problemów jest to, że jeśli chcesz poznać wzorce i dokonać nowych odkryć, które wymagają późniejszej weryfikacji, właściwa jest analiza eksploracyjna. Jeśli chcesz wyciągnąć wnioski (powód z konkretnej próbki do ogólnej populacji przy użyciu wartości P, przedziałów ufności itp.), To nie tak bardzo.
Frank Harrell,
4
Jest to najbardziej produktywny wątek komentujący na CV, szczególnie wymiana b / t rolando2 (3 ^) i @FrankHarrell. Uważam również, że oba podejścia są bardzo atrakcyjne. Moją własną decyzją jest zaplanowanie tego, co przetestować wcześniej i dopasowanie tylko / przetestowanie tego modelu w celu wyciągnięcia jednoznacznych wniosków, ale także dokładne zbadanie danych (bez przekonania, że ​​wyniki muszą się utrzymywać) w celu odkrycia, co może być prawdą i planowanie następnego badania. (Czy powinienem przeprowadzić kolejne badanie i sprawdzić coś, czy byłoby to interesujące / ważne?) Kluczem są twoje przekonania na temat wyników tych analiz.
gung - Przywróć Monikę
3

Naprawdę musisz znaleźć równowagę między nauką / teorią, która prowadzi do danych, a tym, co one mówią. Jak powiedzieli inni, jeśli pozwolisz sobie dopasować się do jakiejkolwiek możliwej transformacji (wielomianów dowolnego stopnia itp.), Skończy się to zbytnim dopasowaniem i otrzymaniem czegoś, co nie będzie przydatne.

Jednym ze sposobów przekonania się o tym jest symulacja. Wybierz jeden z modeli (liniowy, wykładniczy, log) i wygeneruj dane zgodne z tym modelem (z wyborem parametrów). Jeśli twoja warunkowa wariancja wartości y jest niewielka w stosunku do rozprzestrzeniania się zmiennej x, wówczas prosty wykres pokaże, który model został wybrany i czym jest „prawda”. Ale jeśli wybierzesz taki zestaw parametrów, że nie będzie to oczywiste na podstawie wykresów (prawdopodobnie w przypadku, gdy interesujące jest rozwiązanie analityczne), przeanalizuj każdy z 3 sposobów i sprawdź, który daje „najlepsze” dopasowanie. Oczekuję, że przekonasz się, że „najlepsze” dopasowanie często nie jest „prawdziwym” dopasowaniem.

Z drugiej strony czasami chcemy, aby dane mówiły nam tyle, ile to możliwe, i możemy nie mieć wiedzy naukowej / teorii, aby w pełni określić naturę relacji. Oryginalny artykuł Boxa i Coxa (JRSS B, t. 26, nr 2, 1964) omawia sposoby porównania kilku przekształceń zmiennej y, ich podany zestaw przekształceń ma charakter liniowy i logarytmiczny jako przypadki szczególne (ale nie wykładnicze) , ale nic w teorii papieru nie ogranicza się tylko do ich rodziny transformacji, tę samą metodologię można rozszerzyć o porównanie między 3 modelami, którymi jesteś zainteresowany.

Greg Snow
źródło