Czy statystycy zakładają, że nie da się podlać rośliny, czy po prostu używam złych kryteriów wyszukiwania dla regresji krzywoliniowej?

18

Prawie wszystko, co czytam o regresji liniowej i GLM sprowadza się do tego: gdzie f ( x , β ) jest nie rosnącą lub nie malejącą funkcją x, a β jest parametrem, który oceniasz i testujesz hipotezy na temat. Istnieją dziesiątki funkcji łączenia i przekształceń y i x, dzięki którym y jest funkcją liniową f ( x , β ) .y=f(x,β)f(x,β)xβyxyf(x,β)

Teraz, jeśli usuniesz niewzrastające / zmniejszające się wymaganie dla , to znam tylko dwie możliwości dopasowania parametrycznego modelu zlinearyzowanego: funkcje wyzwalające i wielomiany. Oba tworzą sztuczną zależność między każdym przewidywanym y a całym zestawem X , co czyni je bardzo nieelastycznym dopasowaniem, chyba że istnieją wcześniejsze powody, by sądzić, że twoje dane są generowane w procesie cyklicznym lub wielomianowym.f(x,β)yX

To nie jest jakiś ezoteryczny przypadek na krawędzi. Jest to faktyczny, zdrowy rozsądek między wodą a plonami (gdy grunty są wystarczająco głęboko pod wodą, plony zaczną się zmniejszać) lub między kaloriami spożywanymi podczas śniadania a wydajnością podczas quizu matematycznego lub liczbą pracowników w fabryce oraz liczba produkowanych przez nich widżetów ... krótko mówiąc, prawie każdy rzeczywisty przypadek, w którym stosowane są modele liniowe, ale z danymi obejmującymi wystarczająco szeroki zakres, aby przejść przez pomniejszenie zwrotów do ujemnych zwrotów.

Próbowałem szukać terminów „wklęsły”, „wypukły”, „krzywoliniowy”, „niemonotoniczny”, „wanna” i zapominam, ile innych. Kilka istotnych pytań i jeszcze mniej przydatnych odpowiedzi. W praktyce, jeśli posiadasz następujące dane (kod R, y jest funkcją zmiennej ciągłej x i grupy zmiennych dyskretnych):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Wykres punktowy

Możesz najpierw wypróbować transformację Box-Coxa i zobaczyć, czy ma to sens mechanistyczny, a jeśli nie, możesz dopasować nieliniowy model najmniejszych kwadratów z funkcją logistycznego lub asymptotycznego połączenia.

Dlaczego więc miałbyś całkowicie zrezygnować z modeli parametrycznych i powrócić do metody czarnej skrzynki, takiej jak splajny, gdy odkryjesz, że pełny zestaw danych wygląda tak ...

plot(y~x,updown,col=group);

Moje pytania to:

  • Jakie hasła powinienem wyszukać, aby znaleźć funkcje łącza reprezentujące tę klasę relacji funkcjonalnych?

lub

  • Co powinienem przeczytać i / lub poszukać, aby nauczyć się, jak projektować funkcje łączenia z tą klasą relacji funkcjonalnych lub rozszerzać istniejące, które obecnie są tylko dla odpowiedzi monotonicznych?

lub

  • Do licha, nawet jaki znacznik StackExchange jest najbardziej odpowiedni dla tego typu pytań!
f1r3br4nd
źródło
4
Nie mam pojęcia o co pytasz. Chcesz dopasować niemonotoniczną funkcję ... jaki dokładnie jest twój problem z regresją wielomianową lub regresją sinusoidalną? Także ... „funkcja linku” ... wciąż używasz tego słowa ... Nie sądzę, że to znaczy, co myślisz, że to znaczy. x
Jake Westfall,
5
(1) W Rkodzie występują błędy składniowe: groupnie należy cytować. (2) Fabuła jest piękna: czerwone kropki wykazują liniową zależność, podczas gdy czarne mogą być dopasowane na kilka sposobów, w tym fragmentaryczną regresję liniową (uzyskaną z modelu punktu zmiennego), a być może nawet jako wykładniczy. Ja nie polecam ich jednak, bo wybory modelowania powinien być poinformowany przez zrozumienie co produkowane dane i motywowane teorii w odpowiednich dziedzinach. Mogą być lepszym początkiem do twoich badań.
whuber
1
@ whuber dzięki! Naprawiono kod. Odnośnie motywacji teoretycznej: skąd się biorą? Moi koledzy z zespołu naukowców chętnie podzielą zmienne predykcyjne i przeprowadzą na nich testy t. Więc do mnie należy znalezienie sposobu, aby przestać marnować dane, znajdując związek matematyczny, który przechwytuje przejście z „y koreluje dodatnio z x” do „y ma niewielką odpowiedź na x” na „y koreluje ujemnie z x”. W przeciwnym razie będę musiał podsumować, co zrobili np. Michaelis i Menten, gdy znaleźli związek między enzymem, substratem i produktem.
f1r3br4nd
1
Czy punkty, w których te rzeczy „załamują się”, są znane z góry?
Glen_b
3
+1 za prowokujący tytuł i kontynuację, która naprawdę ma sens
Stumpy Joe Pete

Odpowiedzi:

45

Uwagi w pytaniu na temat funkcji linków i monotoniczności to czerwony śledź. U ich podstaw wydaje się ukryte założenie, że uogólniony model liniowy (GLM), wyrażając oczekiwanie odpowiedzi jako funkcji monotonicznej f kombinacji liniowej X β zmiennych objaśniających X , nie jest wystarczająco elastyczny, aby uwzględnić nie odpowiedzi monotoniczne. Po prostu tak nie jest.YfXβX


Być może sprawdzony przykład wyjaśni ten punkt. W badaniu z 1948 r. (Opublikowanym pośmiertnie w 1977 r. I nigdy nie recenzowanym) J. Tolkien poinformował o wynikach podlewania roślin, w których 13 grupom 24 słoneczników ( Helianthus Gondorensis ) podano kontrolowane ilości wody, zaczynając od kiełkowania przez trzy miesiące wzrostu. Całkowite zastosowane ilości wahały się od jednego cala do 25 cali w krokach co dwa cale.

Rycina 1

Istnieje wyraźna pozytywna reakcja na podlewanie i silna negatywna reakcja na nadmierne podlewanie. We wcześniejszych pracach, opartych na hipotetycznych modelach kinetycznych transportu jonów, wysunięto hipotezę, że dwa konkurujące mechanizmy mogą tłumaczyć to zachowanie: jeden spowodował liniową odpowiedź na małe ilości wody (mierzone w logarytmicznym prawdopodobieństwie przeżycia), a drugi - - czynnik hamujący - działał wykładniczo (co jest silnie nieliniowym efektem). Przy dużych ilościach wody czynnik hamujący zniweczyłby pozytywne działanie wody i znacznie zwiększyłby śmiertelność.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Nie ma trudności technicznych; obliczenie zajmuje tylko 1/30 sekundy.

Rysunek 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Odpowiedzi na pytania są następujące:

Jakie hasła powinienem wyszukać, aby znaleźć funkcje łącza reprezentujące tę klasę relacji funkcjonalnych?

Brak : nie jest to celem funkcji link.

Czego powinienem ... szukać, aby ... rozszerzyć istniejące [funkcje łącza], które obecnie są tylko dla odpowiedzi monotonicznych?

Nic : jest to oparte na nieporozumieniu, w jaki sposób modelowane są odpowiedzi.

Najwyraźniej należy najpierw skupić się na tym, jakie zmienne objaśniające należy zastosować lub skonstruować podczas budowania modelu regresji. Jak zasugerowano w tym przykładzie, poszukaj wskazówek z przeszłych doświadczeń i teorii.

Whuber
źródło
świetna odpowiedź! Czy to rzeczywiste dane Tolkiena z powieści?
Cam.Davidson.Pilon
1
@Cam Dane nie dotarły do ​​ostatecznego cięcia :-). (Obawiam się, że kontekst jest raczej
zawrotny
1
κ
5
κκχ2(1)
1
@zipzapboing Podany tu przykład jest wyjątkowy, ponieważ został oparty na teorii leżącej u podstaw. Gdy takie informacje są dostępne, może być potężnym przewodnikiem przy wyborze modelu. Jednak w wielu przypadkach nie ma takich informacji lub można tylko mieć nadzieję, że oczekiwana reakcja może różnić się monotonicznie w zależności od regresorów. Być może najbardziej podstawowym powodem, na który można wskazać, jest nadzieja, że ​​odpowiedź różni się różnie w zależności od regresorów i że w przypadku zakresu regresorów w danych zmiana pochodnej jest niewielka: odpowiedź liniowa byłaby tak dobra.
whuber
9

Patrzy z poczuciem winy na umierającą roślinę na swoim biurku ... najwyraźniej nie

W komentarzach @whuber mówi, że „wybory dotyczące modelowania powinny być oparte na zrozumieniu tego, co wytworzyło dane i motywowane teoriami w odpowiednich dyscyplinach”, do którego zapytaliście, jak się to robi.

Kinetyka Michaelisa i Mentena jest właściwie bardzo przydatnym przykładem. Te równania można wyprowadzić, zaczynając od pewnych założeń (np. Substrat jest w równowadze ze swoim kompleksem, enzym nie jest zużywany) i pewnych znanych zasad (prawo działania masowego). Murray's Mathematical Biology: An Introduction omawia pochodzenie w rozdziale 6 (założę się, że robi to także wiele innych książek!).

Mówiąc bardziej ogólnie, pomaga zbudować „repertuar” modeli i założeń. Jestem pewien, że twoje pole ma kilka powszechnie akceptowanych, sprawdzonych modeli. Na przykład, jeśli coś ładuje się lub rozładowuje, sięgałbym po wykładniczy model swojego napięcia w funkcji czasu. I odwrotnie, jeśli zobaczę kształt wykładniczy na wykresie napięcie-czas, najpierw zgaduję, że coś w obwodzie rozładowuje się pojemnościowo i, gdybym nie wiedział, co to jest, spróbowałbym to znaleźć. Idealnie teoria może pomóc zarówno zbudować model, jak i zasugerować nowe eksperymenty.

y=k(x+h)2CO2 uchwycić z mniejszej transpiracji?) i powodzi (bakterie zjadające korzenie?) mogą sugerować określoną formę dla każdego kawałka.

Matt Krause
źródło
8

Mam raczej nieformalną odpowiedź z punktu widzenia kogoś, kto spędził połowę swojego życia naukowego na ławce, a drugą połowę przy komputerze, bawiąc się statystykami. Próbowałem wpisać komentarz, ale to było za długie.

Widzę, że gdybym był naukowcem obserwującym wyniki, które otrzymujesz, byłbym podekscytowany. Różne relacje monotoniczne są nudne i trudno je rozróżnić. Jednak rodzaj relacji, którą nam pokazujesz, sugeruje bardzo szczególny efekt. Daje nam to wspaniały plac zabaw dla teoretyka do wysuwania hipotez na temat tego, jaki jest związek, jak zmienia się on skrajnie. Daje to świetny plac zabaw dla naukowców zajmujących się ławkami, aby dowiedzieć się, co się dzieje i szeroko eksperymentować na warunkach.

W pewnym sensie wolę mieć pokazany przypadek i nie wiem, jak dopasować prosty model (ale być w stanie wypracować nową hipotezę), niż mieć prostą relację, łatwą do modelowania, ale trudniejszą do zbadania mechanistycznego. Jednak w mojej praktyce nie spotkałem się jeszcze z takim przypadkiem.

Wreszcie jest jeszcze jedna uwaga. Jeśli szukasz testu, który pokazuje, że czerń różni się od czerwonego (w twoich danych) - jako były naukowiec, mówię, dlaczego w ogóle się tym przejmujesz? Jest to wystarczająco jasne z rysunku.

styczeń
źródło
5

W przypadku takich danych prawdopodobnie rozważałbym przynajmniej splajny liniowe.

Możesz to zrobić z łatwością w lm lub glm.

Jeśli podejmiesz takie podejście, Twoim problemem będzie wybór liczby węzłów i lokalizacji węzłów; jednym z rozwiązań może być rozważenie sporej liczby możliwych lokalizacji i użycie czegoś takiego jak lasso lub inne metody regularyzacji i selekcji w celu zidentyfikowania małego zestawu; musisz jednak wziąć pod uwagę efekt takiego wyboru w wnioskowaniu.

Glen_b - Przywróć Monikę
źródło
Ale czy regresja splajnu w zasadzie nie mówi „istnieje nieznana funkcja opisująca kształt odpowiedzi i będziemy testować hipotezy tylko o tym, jak inne zmienne przesuwają tę krzywą w górę / w dół lub przechylają ją”? Co jeśli zabieg zmienia sam kształt - jak interpretuje się taki termin interakcji, jeśli jest znaczący?
f1r3br4nd
2
Jak ogólna jest alternatywa? Nawet w ogólnym przypadku istnieje wiele podejść, w których można dokonać porównania dopasowania, zakładając identyczne funkcje nieparametryczne jak w przypadku oddzielnych funkcji. Modele addytywne i uogólnione modele addytywne mogą poradzić sobie z takimi porównaniami.
Glen_b
Jako przykład bardziej ogólnego przypadku niż omawiany (z odniesieniami omawiającymi różne inne podejścia), jeśli możesz go zrozumieć, spójrz na ten artykuł J.Roca-Pardiñas i in. (2006) „Na podstawie Bootstrap metody testowania interakcji czynnik po krzywej w uogólnionych modelach addytywnych: ocena aktywności nerwowej kory przedczołowej związanej z podejmowaniem decyzji ", Statistics in Medicine , 30 lipca; 25 (14): 2483-501. W tym artykule używają ładowania początkowego (i binowania, aby zmniejszyć obciążenie obliczeniowe), ale są tam inne podejścia.
Glen_b
Bardziej podstawowym i starszym odniesieniem byłoby coś takiego jak Hastie i Tibshirani (1990), Uogólnione modele addytywne (np. Patrz p265). Ponadto, spójrz tutaj konkretnie ostatnie równanie na slajdzie 34. Wokół tam także wyjaśnia to, jak dopasować taki model używając gamw pakiecie R mgcv.
Glen_b
2

Nie miałem czasu przeczytać całego twojego postu, ale wydaje się, że Twoim głównym zmartwieniem jest to, że funkcjonalne formy odpowiedzi mogą się zmieniać wraz z leczeniem. Istnieją techniki radzenia sobie z tym, ale wymagają one dużych ilości danych.
Do twojego konkretnego przykładu:

G to wzrost W to woda T to zabieg

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

W ostatniej dekadzie przeprowadzono mnóstwo badań nad regresją półparametryczną, a te wołowiny o formach funkcjonalnych stają się coraz łatwiejsze do opanowania. Ale pod koniec dnia statystyki bawią się liczbami i są użyteczne tylko wtedy, gdy budują intuicję na temat obserwowanych zjawisk. To z kolei wymaga zrozumienia sposobów grania liczbami. Ton twojego postu wskazuje na chęć wyrzucenia dziecka z kąpielą.

użytkownik_ogólny
źródło