Mam przykładowy zestaw danych w następujący sposób:
Volume <- seq(1,20,0.1)
var1 <- 100
x2 <- 1000000
x3 <- 30
x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)
Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))
Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)
Na podstawie rysunku można zasugerować, że między pewnym zakresem „objętości” i „mocy” związek jest liniowy, a gdy „objętość” staje się stosunkowo mała, związek staje się nieliniowy. Czy istnieje statystyczny test ilustrujący to?
W odniesieniu do niektórych zaleceń przedstawionych w odpowiedziach na PO:
Pokazany tutaj przykład jest po prostu przykładem, zestaw danych, który mam, wygląda podobnie do relacji widzianej tutaj, chociaż jest głośniejszy. Analiza, którą do tej pory przeprowadziłem, pokazuje, że kiedy analizuję objętość określonej cieczy, moc sygnału drastycznie wzrasta, gdy jest mała objętość. Powiedzmy, że miałem tylko środowisko, w którym objętość wynosiła od 15 do 20, prawie wyglądałoby to na relację liniową. Jednak zwiększając zakres punktów, tj. Mając mniejsze objętości, widzimy, że zależność wcale nie jest liniowa. Teraz szukam porady statystycznej, jak statystycznie to pokazać. Mam nadzieję, że to ma sens.
R
kodu:plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")
. Pokazuje prawie stały rozmiar resztkowy w pełnym zakresie.Odpowiedzi:
Jest to w zasadzie problem z wyborem modelu. Zachęcam do wybrania zestawu fizycznie wiarygodnych modeli (liniowy, wykładniczy, może nieciągły związek liniowy) i do wyboru najlepszego używa Kryterium Informacyjnego Akaike lub Kryterium Bayesowskiego, aby wybrać najlepszy - mając na uwadze problem heteroscedastyczności, na który wskazuje @whuber.
źródło
Czy próbowałeś google google !? Jednym ze sposobów jest dopasowanie wyższej mocy lub innych nieliniowych warunków do twojego modelu i sprawdzenie, czy ich współczynniki znacznie różnią się od 0.
Istnieje kilka przykładów tutaj http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf
W twoim przypadku możesz podzielić zestaw danych na dwie sekcje, aby przetestować nieliniowość dla objętości <5 i liniowość dla objętości> 5.
Innym problemem, jaki masz, jest to, że Twoje dane są heteroskedastyczne, co narusza założenie normalności dla danych regresji. Podany link podaje również przykłady testowania tego.
źródło
Sugeruję użycie regresji nieliniowej, aby dopasować jeden model do wszystkich danych. Po co wybierać dowolny wolumen i dopasowywać jeden model do woluminów mniejszych niż ten, a drugi model do większych woluminów? Czy jest jakikolwiek powód, poza wyglądem na rysunku, aby użyć 5 jako ostrego progu? Czy naprawdę wierzysz, że po określonym progu objętości idealna krzywa jest liniowa? Czy nie jest bardziej prawdopodobne, że zbliża się poziomo wraz ze wzrostem głośności, ale nigdy nie jest całkiem liniowy?
Oczywiście wybór narzędzia do analizy musi zależeć od pytań naukowych, na które próbujesz odpowiedzieć, i twojej wcześniejszej wiedzy o systemie.
źródło