Mam pewne dane szeregów czasowych, w których mierzoną zmienną są dyskretne dodatnie liczby całkowite (liczby). Chcę sprawdzić, czy z czasem (lub nie) występuje trend wzrostowy. Zmienna niezależna (x) jest w zakresie 0-500, a zmienna zależna (y) jest w zakresie 0-8.
Myślałem, że odpowiem na to, dopasowując regresję formy y = floor(a*x + b)
za pomocą zwykłych najmniejszych kwadratów (OLS).
Jak mógłbym to zrobić za pomocą R (lub Python)? Czy istnieje już dla niego pakiet, czy może lepiej napisać własny algorytm?
PS: Wiem, że to nie jest idealna technika, ale muszę przeprowadzić stosunkowo prostą analizę, którą właściwie potrafię zrozumieć - moje tło to biologia, a nie matematyka. Wiem, że naruszam założenia dotyczące błędu mierzonej zmiennej i niezależności pomiarów w czasie.
źródło
Odpowiedzi:
Możesz dopasować model, który podajesz za pomocą funkcji
nls
(nieliniowej najmniejszych kwadratów)R
, ale jak powiedziałeś, to naruszy wiele założeń i prawdopodobnie nie będzie miało większego sensu (mówisz, że przewidywany wynik jest losowy na etapie funkcja, a nie wartości całkowite wokół płynnie rosnącego związku).Najczęstszym sposobem dopasowania danych zliczania jest regresja Poissona przy użyciu
glm
funkcji inR
. Pierwszy przykład na stronie pomocy to regresja Poissona, chociaż jeśli nie znasz się na statystykach, najlepiej skonsultować się ze statystykami, aby upewnić się że robisz wszystko poprawnie.Jeśli wartość 8 jest absolutnym maksimum (niemożliwym do zobaczenia wyższego wyniku, nie tylko to widziałeś), możesz rozważyć regresję logistyczną proporcjonalności szans, istnieje kilka narzędzi, aby to zrobić w pakietach
R
, ale możesz naprawdę powinieneś zaangażować statystyk, jeśli chcesz to zrobić.źródło
Jednak model, który sugerujesz, może wystąpić na przykład, gdy obserwujesz zaokrąglone dane: iid normalne błędy .
Myślę, że to interesujące, aby zobaczyć, co można z tym zrobić. Oznaczam przez cdf standardowej zmiennej normalnej. Jeśli , to przy użyciu znanych notacji komputerowych.F ϵ∼N(0,σ2)
Obserwujesz punkty danych . Prawdopodobieństwo dziennika jest podane przez Nie jest to identyczne z najmniejszymi kwadratami. Możesz spróbować zmaksymalizować to za pomocą metody numerycznej. Oto ilustracja w R:(xi,yi)
Na czerwono i niebiesko linie znalezione przez numeryczną maksymalizację tego prawdopodobieństwa i odpowiednio najmniejszych kwadratów. Zielone schody to dla znalezione z maksymalnego prawdopodobieństwa ... to sugeruje, że możesz użyć najmniejszych kwadratów, do tłumaczenia o 0,5, i uzyskać mniej więcej ten sam wynik; lub te najmniejsze kwadraty dobrze pasują do modelu gdzie jest najbliższą liczbą całkowitą. Zaokrąglone dane są tak często spotykane, że jestem pewien, że jest to znane i zostało gruntownie zbadane ...ax+b ⌊ax+b⌋ a,b b
źródło