Prowadzę badania w dziedzinie odpowiedzi funkcjonalnej roztoczy. Chciałbym zrobić regresję, aby oszacować parametry (szybkość ataku i czas obsługi) funkcji Rogers typu II. Mam zestaw danych z pomiarami. Jak mogę najlepiej określić wartości odstające?
Do mojej regresji używam następującego skryptu w R (regresja nieliniowa): (zestaw danych to prosty 2-kolumnowy plik tekstowy o nazwie data.txt
plik z N0
wartościami (liczba początkowych ofiar) i FR
wartościami (liczba zjedzonych ofiar w ciągu 24 godzin):
library("nlstools")
dat <- read.delim("C:/data.txt")
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters
Do wykreślenia wykresów resztkowych calssic używam następującego skryptu:
res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
boxplot (res$resi2,main="boxplot normalised residuals")
pytania
- Jak najlepiej określić, które punkty danych są wartościami odstającymi?
- Czy istnieją testy, które mogę zastosować w R, które są obiektywne i pokazują mi, które punkty danych są wartościami odstającymi?
źródło
Dla jednowymiarowych wartości odstających istnieje test współczynnika Dixona i test Grubbsa zakładający normalność. Aby sprawdzić wartość odstającą, musisz założyć rozkład populacji, ponieważ próbujesz wykazać, że zaobserwowana wartość jest ekstremalna lub niezwykła, ponieważ pochodzi z założonego rozkładu. Mam artykuł w American Statistician z 1982 r., Do którego mogłem się tu odwołać, który pokazuje, że test stosunku Dixona może być stosowany w małych próbkach, nawet w przypadku niektórych nietypowych rozkładów. Chernick, MR (1982) „Nota o solidności współczynnika Dixona w małych próbkach” American Statistician str. 140. Dla wielowymiarowych wartości odstających i odstających w szeregach czasowych funkcje wpływu dla oszacowań parametrów są użytecznymi miarami do nieformalnego wykrywania wartości odstających (nie wiem skonstruowanych dla nich testów formalnych, chociaż takie testy są możliwe).„Wartości odstające w danych statystycznych” dla szczegółowego traktowania metod wykrywania wartości odstających.
źródło
Zobacz http://www.waset.org/journals/waset/v36/v36-45.pdf , „O wykrywaniu wartości odstających w regresji nieliniowej” [ sic ].
Abstrakcyjny
źródło
Wartość odstająca to punkt, który „jest zbyt daleko” od „pewnego poziomu odniesienia”. Sztuką jest zdefiniowanie obu tych fraz! W przypadku regresji nieliniowej nie można po prostu użyć metod jednowymiarowych, aby sprawdzić, czy wartość odstająca jest „zbyt daleko” od krzywej najlepiej dopasowanej, ponieważ wartość odstająca może mieć ogromny wpływ na samą krzywą.
Ron Brown i ja opracowaliśmy unikalną metodę (którą nazywamy ROUT - Solidna regresja i usuwanie wartości odstających) do wykrywania wartości odstających z regresją nieliniową, nie pozwalając, aby wartość odstająca zbytnio wpływała na krzywą. Najpierw dopasuj dane za pomocą solidnej metody regresji, na którą wartości odstające mają niewielki wpływ. To stanowi podstawę. Następnie użyj pomysłów Fałszywego odkrycia (FDR), aby określić, kiedy punkt znajduje się „za daleko” od tej linii bazowej, a więc jest wartością odstającą. Na koniec usuwa zidentyfikowane wartości odstające i konwencjonalnie pasuje do pozostałych punktów.
Metoda została opublikowana w czasopiśmie o otwartym dostępie: Motulsky HJ i Brown RE, Wykrywanie wartości odstających podczas dopasowywania danych za pomocą regresji nieliniowej - nowa metoda oparta na solidnej regresji nieliniowej i częstości fałszywych odkryć , BMC Bioinformatics 2006, 7: 123. Oto streszczenie:
O ile mi wiadomo, nie został zaimplementowany w R. Ale zaimplementowaliśmy go w GraphPad Prism. i podaj proste wyjaśnienie w pomocy Pryzmatu .
źródło
Twoje pytanie jest zbyt ogólne. Nie ma jednej najlepszej metody wykluczenia „wartości odstających”.
Trzeba było znać niektóre właściwości „wartości odstających”. lub nie wiesz, która metoda jest najlepsza. Po podjęciu decyzji, której metody chcesz użyć, musisz ostrożnie skalibrować parametry metody.
źródło