Szukam zaawansowanego studium przypadku regresji liniowej ilustrującego kroki wymagane do modelowania złożonych, wielu nieliniowych zależności za pomocą GLM lub OLS. Zaskakująco trudno jest znaleźć zasoby wykraczające poza podstawowe przykłady szkolne: większość książek, które przeczytałem, nie pójdzie dalej niż logiczna transformacja odpowiedzi w połączeniu z BoxCox jednego predyktora, lub w najlepszym przypadku naturalny spline. Również wszystkie przykłady, które do tej pory widziałem, podchodzą do każdego problemu transformacji danych w osobnym modelu, często w jednym modelu predykcyjnym.
Wiem, co to jest transformacja BoxCox lub YeoJohnson. To, czego szukam, to szczegółowe studium przypadku, w którym reakcja / związek nie są jednoznaczne. Na przykład odpowiedź nie jest ściśle pozytywna (więc nie można użyć log lub BoxCox), predyktory mają nieliniowe relacje między sobą i przeciw odpowiedzi, a transformacje danych o maksymalnym prawdopodobieństwie nie wydają się sugerować standardowego 0.33 lub 0,5 wykładnika. Stwierdzono również, że wariancja rezydualna jest niestała (nigdy nie jest), więc odpowiedź również musi zostać przekształcona i trzeba będzie dokonać wyboru między niestandardową regresją rodziny GLM lub transformacją odpowiedzi. Naukowiec prawdopodobnie dokona wyboru, aby uniknąć przeładowania danych.
EDYTOWAĆ
Do tej pory zgromadziłem następujące zasoby:
- Strategie modelowania regresji, F. Harrell
- Zastosowane ekonometryczne szeregi czasowe, W. Enders
- Dynamiczne modele liniowe z R, G. Petris
- Analiza regresji stosowanej, D. Kleinbaum
- Wprowadzenie do nauki statystycznej, G. James / D. Witten
Czytam tylko ostatni (ISLR) i jest to bardzo dobry tekst (5 gwiazdek na moim zegarku), chociaż bardziej zorientowany na ML niż zaawansowane modelowanie regresji.
Jest też ten dobry post na CV, który przedstawia trudny przypadek regresji.
źródło
Odpowiedzi:
Strategie modelowania regresji i ISLR, o których wspominali już inni, to dwie bardzo dobre sugestie. Mam kilka innych, które możesz rozważyć.
Zastosowane modelowanie predykcyjne Kuhna i Johnsona zawiera wiele dobrych studiów przypadków i jest bardzo praktyczne.
Uogólnione modele addytywne: Wprowadzenie do R. autorstwa Simona Wooda jest dobrym traktowaniem uogólnionych modeli addytywnych i tego, jak je dopasowujesz, używając jego
mgcv
pakietu dla R. Zawiera on kilka niebanalnych praktycznych przykładów. Wykorzystanie modeli GAM jest alternatywą dla znalezienia „poprawnej” transformacji, ponieważ odbywa się to w sposób dostosowujący dane poprzez rozszerzenie splajnu i karane oszacowanie maksymalnego prawdopodobieństwa. Jednak nadal trzeba dokonać innych wyborów, np. Wybór funkcji łącza.Mboost pakiet R pasuje również modele GAM, ale stosując inne podejście poprzez pobudzanie. Polecam samouczek dla pakietu (jednej z winiet).
Wspomnę również o odkrywaniu modeli empirycznych i ocenie teorii przez Hendry'ego i Doornika, chociaż sam jeszcze nie czytałem tej książki. Polecono mi to.
źródło
Jeden z najlepszych materiałów szkoleniowych , które można znaleźć na temat zaawansowanej, wielorakiej, złożonej (w tym nieliniowej) regresji, oparty jest na książce Strategie modelowania regresji autorstwa Franka E. Harrell Jr.
Książka jest omawiana w komentarzach, ale nie w tym materiale, który sam w sobie jest świetnym źródłem.
źródło
Poleciłbym książkę Mostly Harmless Econometrics autorstwa Joshua D. Angrista i Jörn-Steffen Pischke
Jest to najbardziej realny, solny na ziemi tekst, który posiadam i jest super tani, około 26,00 $ nowy. Książka została napisana dla absolwenta statystyki / ekonomisty, więc jest bardzo zaawansowana.
Teraz ta książka nie jest dokładnie tym, o co prosisz, w tym sensie, że nie koncentruje się na „złożonych, wielokrotnych nieliniowych związkach”, tak jak na podstawowych podstawach, takich jak endoegeniczność, interpretacja i sprytny projekt regresji.
Ale oferuję tę książkę, aby spróbować coś wyjaśnić. To znaczy, jeśli chodzi o zastosowanie analizy regresji w świecie rzeczywistym, najtrudniejsze kwestie na ogół nie mają związku z faktem, że nasze modele nie są wystarczająco złożone ... uwierz mi, że jesteśmy dobrzy w perkusji bardzo złożonej modele! Raczej największe problemy to takie
Dobra znajomość GMM, filtrów nieliniowych i regresji nieparametrycznej obejmuje w zasadzie wszystkie wymienione przez Ciebie tematy i możesz się ich nauczyć w miarę postępów. Jednak w przypadku danych ze świata rzeczywistego ramy te mogą być niepotrzebnie złożone, często szkodliwe.
Często jest to umiejętność bycia sprytnie prostym, a nie całkowicie uogólnionym i wysoce wyrafinowanym, co przynosi największe korzyści w analizach w świecie rzeczywistym. Ta książka pomoże ci w tym pierwszym.
źródło
Możesz odnieść się do Wstępu do uczenia statystycznego z R (ISLR), książka szczegółowo omawia splajny i regresję wielomianową z przypadkami.
źródło
Nie jestem pewien, jaki jest cel twojego pytania. Mogę polecić tekst analizy ekonometrycznej Greene'a . Zawiera mnóstwo odniesień do dokumentów. Prawie każdy przykład w książce odnosi się do opublikowanego artykułu.
Aby nadać smak, spójrz na przykład 7.6 „Efekty interakcji w loglinearnym modelu dochodu” na str. 195. Odwołuje się do artykułu i zestawu danych: Regina T. Riphahn, Achim Wambach i Andreas Million, „ Efekty motywacyjne w popycie na opiekę zdrowotną: szacowanie danych na podstawie danych z dwóch zmiennych ”, Journal of Applied Econometrics, t. 18, nr 4, 2003, s. 387-405.
Przykład dotyczy użycia modeli logicznych i efektów interakcji. Możesz przeczytać cały artykuł lub jego opis w podręcznikach. To nie jest gotowy przypadek użycia. To prawdziwe opublikowane badania. W ten sposób ludzie faktycznie wykorzystują metody statystyczne w badaniach ekonomicznych.
Jak napisałem, książka jest nękana takimi przypadkami użycia, jak użycie zaawansowanych metod statystycznych.
źródło
Czy zapoznałeś się z niektórymi kursami / książkami Financial Time Series Analysis, które pisze Ruey Tsay (UChicago)?
http://faculty.chicagobooth.edu/ruey.tsay/teaching/
Klasy Ruey Tsays i podręcznik dostarczają wielu realnych przykładów w finansach złożonych regresji tego typu, które są tworzone na potrzeby rynków finansowych. Rozdział 1 rozpoczyna się od modeli regresji wieloczynnikowej i rozszerza się na modele szeregów sezonowego czasu autoregresji według rozdziału 5 lub 6.
źródło