Prawie wszystko, co czytam o regresji liniowej i GLM sprowadza się do tego: gdzie f ( x , β ) jest nie rosnącą lub nie malejącą funkcją x, a β jest parametrem, który oceniasz i testujesz hipotezy na temat. Istnieją dziesiątki funkcji łączenia i przekształceń y i x, dzięki którym y jest funkcją liniową f ( x , β ) .
Teraz, jeśli usuniesz niewzrastające / zmniejszające się wymaganie dla , to znam tylko dwie możliwości dopasowania parametrycznego modelu zlinearyzowanego: funkcje wyzwalające i wielomiany. Oba tworzą sztuczną zależność między każdym przewidywanym y a całym zestawem X , co czyni je bardzo nieelastycznym dopasowaniem, chyba że istnieją wcześniejsze powody, by sądzić, że twoje dane są generowane w procesie cyklicznym lub wielomianowym.
To nie jest jakiś ezoteryczny przypadek na krawędzi. Jest to faktyczny, zdrowy rozsądek między wodą a plonami (gdy grunty są wystarczająco głęboko pod wodą, plony zaczną się zmniejszać) lub między kaloriami spożywanymi podczas śniadania a wydajnością podczas quizu matematycznego lub liczbą pracowników w fabryce oraz liczba produkowanych przez nich widżetów ... krótko mówiąc, prawie każdy rzeczywisty przypadek, w którym stosowane są modele liniowe, ale z danymi obejmującymi wystarczająco szeroki zakres, aby przejść przez pomniejszenie zwrotów do ujemnych zwrotów.
Próbowałem szukać terminów „wklęsły”, „wypukły”, „krzywoliniowy”, „niemonotoniczny”, „wanna” i zapominam, ile innych. Kilka istotnych pytań i jeszcze mniej przydatnych odpowiedzi. W praktyce, jeśli posiadasz następujące dane (kod R, y jest funkcją zmiennej ciągłej x i grupy zmiennych dyskretnych):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Możesz najpierw wypróbować transformację Box-Coxa i zobaczyć, czy ma to sens mechanistyczny, a jeśli nie, możesz dopasować nieliniowy model najmniejszych kwadratów z funkcją logistycznego lub asymptotycznego połączenia.
Dlaczego więc miałbyś całkowicie zrezygnować z modeli parametrycznych i powrócić do metody czarnej skrzynki, takiej jak splajny, gdy odkryjesz, że pełny zestaw danych wygląda tak ...
plot(y~x,updown,col=group);
Moje pytania to:
- Jakie hasła powinienem wyszukać, aby znaleźć funkcje łącza reprezentujące tę klasę relacji funkcjonalnych?
lub
- Co powinienem przeczytać i / lub poszukać, aby nauczyć się, jak projektować funkcje łączenia z tą klasą relacji funkcjonalnych lub rozszerzać istniejące, które obecnie są tylko dla odpowiedzi monotonicznych?
lub
- Do licha, nawet jaki znacznik StackExchange jest najbardziej odpowiedni dla tego typu pytań!
R
kodzie występują błędy składniowe:group
nie należy cytować. (2) Fabuła jest piękna: czerwone kropki wykazują liniową zależność, podczas gdy czarne mogą być dopasowane na kilka sposobów, w tym fragmentaryczną regresję liniową (uzyskaną z modelu punktu zmiennego), a być może nawet jako wykładniczy. Ja nie polecam ich jednak, bo wybory modelowania powinien być poinformowany przez zrozumienie co produkowane dane i motywowane teorii w odpowiednich dziedzinach. Mogą być lepszym początkiem do twoich badań.Odpowiedzi:
Uwagi w pytaniu na temat funkcji linków i monotoniczności to czerwony śledź. U ich podstaw wydaje się ukryte założenie, że uogólniony model liniowy (GLM), wyrażając oczekiwanie odpowiedzi jako funkcji monotonicznej f kombinacji liniowej X β zmiennych objaśniających X , nie jest wystarczająco elastyczny, aby uwzględnić nie odpowiedzi monotoniczne. Po prostu tak nie jest.Y fa Xβ X
Być może sprawdzony przykład wyjaśni ten punkt. W badaniu z 1948 r. (Opublikowanym pośmiertnie w 1977 r. I nigdy nie recenzowanym) J. Tolkien poinformował o wynikach podlewania roślin, w których 13 grupom 24 słoneczników ( Helianthus Gondorensis ) podano kontrolowane ilości wody, zaczynając od kiełkowania przez trzy miesiące wzrostu. Całkowite zastosowane ilości wahały się od jednego cala do 25 cali w krokach co dwa cale.
Istnieje wyraźna pozytywna reakcja na podlewanie i silna negatywna reakcja na nadmierne podlewanie. We wcześniejszych pracach, opartych na hipotetycznych modelach kinetycznych transportu jonów, wysunięto hipotezę, że dwa konkurujące mechanizmy mogą tłumaczyć to zachowanie: jeden spowodował liniową odpowiedź na małe ilości wody (mierzone w logarytmicznym prawdopodobieństwie przeżycia), a drugi - - czynnik hamujący - działał wykładniczo (co jest silnie nieliniowym efektem). Przy dużych ilościach wody czynnik hamujący zniweczyłby pozytywne działanie wody i znacznie zwiększyłby śmiertelność.
R
Nie ma trudności technicznych; obliczenie zajmuje tylko 1/30 sekundy.
R
Odpowiedzi na pytania są następujące:
Brak : nie jest to celem funkcji link.
Nic : jest to oparte na nieporozumieniu, w jaki sposób modelowane są odpowiedzi.
Najwyraźniej należy najpierw skupić się na tym, jakie zmienne objaśniające należy zastosować lub skonstruować podczas budowania modelu regresji. Jak zasugerowano w tym przykładzie, poszukaj wskazówek z przeszłych doświadczeń i teorii.
źródło
Patrzy z poczuciem winy na umierającą roślinę na swoim biurku ... najwyraźniej nie
W komentarzach @whuber mówi, że „wybory dotyczące modelowania powinny być oparte na zrozumieniu tego, co wytworzyło dane i motywowane teoriami w odpowiednich dyscyplinach”, do którego zapytaliście, jak się to robi.
Kinetyka Michaelisa i Mentena jest właściwie bardzo przydatnym przykładem. Te równania można wyprowadzić, zaczynając od pewnych założeń (np. Substrat jest w równowadze ze swoim kompleksem, enzym nie jest zużywany) i pewnych znanych zasad (prawo działania masowego). Murray's Mathematical Biology: An Introduction omawia pochodzenie w rozdziale 6 (założę się, że robi to także wiele innych książek!).
Mówiąc bardziej ogólnie, pomaga zbudować „repertuar” modeli i założeń. Jestem pewien, że twoje pole ma kilka powszechnie akceptowanych, sprawdzonych modeli. Na przykład, jeśli coś ładuje się lub rozładowuje, sięgałbym po wykładniczy model swojego napięcia w funkcji czasu. I odwrotnie, jeśli zobaczę kształt wykładniczy na wykresie napięcie-czas, najpierw zgaduję, że coś w obwodzie rozładowuje się pojemnościowo i, gdybym nie wiedział, co to jest, spróbowałbym to znaleźć. Idealnie teoria może pomóc zarówno zbudować model, jak i zasugerować nowe eksperymenty.
źródło
Mam raczej nieformalną odpowiedź z punktu widzenia kogoś, kto spędził połowę swojego życia naukowego na ławce, a drugą połowę przy komputerze, bawiąc się statystykami. Próbowałem wpisać komentarz, ale to było za długie.
Widzę, że gdybym był naukowcem obserwującym wyniki, które otrzymujesz, byłbym podekscytowany. Różne relacje monotoniczne są nudne i trudno je rozróżnić. Jednak rodzaj relacji, którą nam pokazujesz, sugeruje bardzo szczególny efekt. Daje nam to wspaniały plac zabaw dla teoretyka do wysuwania hipotez na temat tego, jaki jest związek, jak zmienia się on skrajnie. Daje to świetny plac zabaw dla naukowców zajmujących się ławkami, aby dowiedzieć się, co się dzieje i szeroko eksperymentować na warunkach.
W pewnym sensie wolę mieć pokazany przypadek i nie wiem, jak dopasować prosty model (ale być w stanie wypracować nową hipotezę), niż mieć prostą relację, łatwą do modelowania, ale trudniejszą do zbadania mechanistycznego. Jednak w mojej praktyce nie spotkałem się jeszcze z takim przypadkiem.
Wreszcie jest jeszcze jedna uwaga. Jeśli szukasz testu, który pokazuje, że czerń różni się od czerwonego (w twoich danych) - jako były naukowiec, mówię, dlaczego w ogóle się tym przejmujesz? Jest to wystarczająco jasne z rysunku.
źródło
W przypadku takich danych prawdopodobnie rozważałbym przynajmniej splajny liniowe.
Możesz to zrobić z łatwością w lm lub glm.
Jeśli podejmiesz takie podejście, Twoim problemem będzie wybór liczby węzłów i lokalizacji węzłów; jednym z rozwiązań może być rozważenie sporej liczby możliwych lokalizacji i użycie czegoś takiego jak lasso lub inne metody regularyzacji i selekcji w celu zidentyfikowania małego zestawu; musisz jednak wziąć pod uwagę efekt takiego wyboru w wnioskowaniu.
źródło
gam
w pakiecie Rmgcv
.Nie miałem czasu przeczytać całego twojego postu, ale wydaje się, że Twoim głównym zmartwieniem jest to, że funkcjonalne formy odpowiedzi mogą się zmieniać wraz z leczeniem. Istnieją techniki radzenia sobie z tym, ale wymagają one dużych ilości danych.
Do twojego konkretnego przykładu:
G to wzrost W to woda T to zabieg
W ostatniej dekadzie przeprowadzono mnóstwo badań nad regresją półparametryczną, a te wołowiny o formach funkcjonalnych stają się coraz łatwiejsze do opanowania. Ale pod koniec dnia statystyki bawią się liczbami i są użyteczne tylko wtedy, gdy budują intuicję na temat obserwowanych zjawisk. To z kolei wymaga zrozumienia sposobów grania liczbami. Ton twojego postu wskazuje na chęć wyrzucenia dziecka z kąpielą.
źródło