Mam dość skomplikowany zestaw danych do analizy i nie mogę znaleźć dla niego dobrego rozwiązania.
Oto rzecz:
1. surowe dane są zasadniczo nagraniami owadów. Każda piosenka składa się z kilku serii, a każda seria składa się z podjednostek. Wszystkie osoby były rejestrowane przez 5 minut. Liczba serii i ich pozycja w nagraniu mogą być bardzo różne dla poszczególnych osób, a także liczba podjednostek na serię.
2. Mam częstotliwość nośną (częstotliwość podstawową) każdej podjednostki i to właśnie chcę przeanalizować.
Moje problemy:
1. Częstotliwości w serii nie są oczywiście niezależne (chociaż jest dość stabilna, ale częstotliwość podjednostki n-1 będzie miała wpływ na podjednostkę n).
2. Serie również nie są niezależne w obrębie nagrania.
3. Są jeszcze mniej niezależne, gdy częstotliwość maleje z czasem (jednostka zmęczy się śpiewaniem, więc częstotliwość piosenki maleje). Upuszczanie wydaje się być liniowe.
4. Zagnieżdżanie = Mam 3 replikowane populacje dla dwóch lokalizacji A i B. Więc mam A1, A2, A3 i B1, B2, B3.
Co chciałbym zrobić:
1. Scharakteryzuj różnicę częstotliwości między moimi dwiema lokalizacjami (przetestuj to statystycznie)
2. Scharakteryzuj częstotliwość spadającą między dwiema lokalizacjami (zobacz, czy spada ona szybciej w jednej z nich)
Jak to zrobić:
Dlatego potrzebuję pomocy: nie wiem. Wygląda na to, że mój przypadek łączy problemy, których zwykle nie widać razem. Czytałem o mieszanych modelach, o GAM, o ARIMA, losowych i ustalonych efektach, ale nie mogę być naprawdę pewien najlepszego sposobu na zrobienie tego. Kiedy jednak to wykresuję (częstotliwość ~ liczba podjednostek n ), różnica między dwiema lokalizacjami jest bardzo wyraźna. Muszę również wziąć pod uwagę inne zmienne, takie jak temperatura (zwiększa częstotliwość) itp.
Myślałem o:
Zagnieżdżanie poszczególnych osób w replikacji, z której pochodzą, i zagnieżdżanie repliki w lokalizacji (osoba / replikacja / lokalizacja).
Użyj losowego efektu „wybuchu”, więc biorę pod uwagę zmienność w każdym wybuchu.
Użyj stałego efektu „pozycji zdjęć seryjnych podczas nagrywania”, aby zmierzyć spadek częstotliwości (mając nadzieję, że faktycznie jest liniowy).
Czy to byłoby poprawne?
Czy istnieje specjalny typ modelu, którego można użyć do tego rodzaju scenariusza?
Odpowiedzi:
To tylko niektóre ogólne sugestie, które mogą okazać się pomocne, bardziej mapa drogowa niż przepis.
Na początek zrobiłbym coś w rodzaju wstępnego przetworzenia częstotliwości podjednostek na zasadzie wybuchu po wybuchu w coś w rodzaju pary (średnia częstotliwość, trend częstotliwości) - zrób to za pomocą OLS i po prostu modeluj średnią częstotliwość i trend seria, a nie same podjednostki. Lub możesz to zrobić (średnia, trend, liczba podjednostek), jeśli liczba podjednostek odnosi się do zmęczenia owada. Następnie zbuduj bayesowski model hierarchiczny, w którym rozkład średniej i trendu serii zależy od średniej trendu zapisu, a to z kolei zależy od średniej trendu lokalizacji.
Następnie dodaj temperaturę jako czynnik dla średniej / trendu zapisu.
Ten prosty model powinien pozwolić ci zobaczyć średnią i trend poszczególnych serii w nagraniu, określonym przez temperaturę i lokalizację. Postaraj się, aby to zadziałało.
Następnie spróbowałbym oszacować różnicę między średnią częstotliwością serii (lub trendem, dzieląc przez cichy czas między seriami), dodając to jako zmienną określoną przez lokalizację i zapis. Następnym krokiem jest model AR średniej serii w nagraniu.
Biorąc pod uwagę niektóre priorytety i pewne bardzo mocne założenia dotyczące charakteru wybuchów (że wszystkie informacje są podawane według średniej i trendu), ten podstawowy model powie ci:
Gdy już coś takiego działa, być może nadszedł czas, aby samodzielnie modelować podjednostki i wyrzucić pierwotne oszacowanie OLS. W tym momencie spojrzałbym na dane, aby dowiedzieć się, jaki rodzaj modelu szeregów czasowych może pasować, i modelować parametry modelu szeregów czasowych zamiast par (średniej, trendu).
źródło