Oto kontekst. Interesuje mnie określenie, w jaki sposób dwie zmienne środowiskowe (temperatura, poziomy składników odżywczych) wpływają na średnią wartość zmiennej odpowiedzi w okresie 11 lat. W ciągu każdego roku dostępne są dane z ponad 100 000 lokalizacji.
Celem jest ustalenie, czy w ciągu 11 lat średnia wartość zmiennych odpowiedzi zareagowała na zmiany zmiennych środowiskowych (np. Wyższa temperatura + więcej składników odżywczych = większa odpowiedź).
Niestety, ponieważ odpowiedź jest wartością średnią (bez patrzenia na średnią, tylko regularna zmienność międzyroczna spowoduje zalanie sygnału), regresja wyniesie 11 punktów danych (1 wartość średnia na rok), z 2 zmiennymi objaśniającymi. Dla mnie nawet liniową regresję dodatnią trudno będzie uznać za znaczącą, biorąc pod uwagę, że zestaw danych jest tak mały (nawet nie spełnia nominalnych 40 punktów / zmiennych, chyba że związek jest super silny).
Czy mam rację, aby przyjąć to założenie? Czy ktoś może zaoferować jakieś inne przemyślenia / perspektywy, które mogą mi brakować?
PS: Niektóre zastrzeżenia: Nie ma sposobu, aby uzyskać więcej danych bez czekania kolejnych lat. Dostępne dane są tym, z czym naprawdę musimy pracować.
źródło
Odpowiedzi:
Mała liczba punktów danych ogranicza rodzaje modeli, które możesz dopasować do swoich danych. Jednak niekoniecznie oznacza to, że rozpoczęcie modelowania nie miałoby sensu. Mając niewiele danych, będziesz w stanie wykryć powiązania tylko wtedy, gdy efekty są silne, a rozproszenie słabe.
To kolejne pytanie, jaki model pasuje do twoich danych. W tytule użyto słowa „regresja”. Model powinien w pewnym stopniu odzwierciedlać to, co wiesz o tym zjawisku. Wydaje się, że jest to środowisko ekologiczne, więc miniony rok również może mieć wpływ.
źródło
Widziałem zbiory danych ekologicznych z mniej niż 11 punktami, więc powiedziałbym, że jeśli jesteś bardzo ostrożny, możesz wyciągnąć pewne ograniczone wnioski z twoich ograniczonych danych.
Możesz również przeprowadzić analizę mocy, aby określić, jak niewielki efekt można wykryć, biorąc pod uwagę parametry projektu eksperymentalnego.
Być może nie będziesz musiał wyrzucać dodatkowej zmienności rocznie, jeśli wykonasz dokładną analizę
źródło
Modelowanie danych zasadniczo (szczególnie dla szeregów czasowych) zakłada, że zebrałeś dane z wystarczającą częstotliwością, aby uchwycić interesujące zjawiska. Najprostszym przykładem jest fala sinusoidalna - jeśli zbierasz dane z częstotliwością n * pi, gdzie n jest liczbą całkowitą, nie zobaczysz nic poza zerami i całkowicie pominiesz sinusoidalny wzór. Istnieją artykuły na temat teorii próbkowania, które omawiają, jak często należy gromadzić dane.
źródło
Nie jestem pewien, czy rozumiem ten fragment: „Niestety, ponieważ odpowiedź jest wartością średnią (bez patrzenia na średnią, tylko regularna zmienność międzyroczna zamieni sygnał)”
Przy ostrożnym modelowaniu wydaje mi się, że możesz wiele zyskać, modelując to jako dane panelowe. W zależności od zakresu przestrzennego twoich danych mogą występować duże różnice temperatur, na które twoje punkty danych były narażone w danym roku. Uśrednianie wszystkich tych wariantów wydaje się kosztowne.
źródło
Powiedziałbym, że ważność testu ma mniej wspólnego z liczbą punktów danych, a więcej z zasadnością założenia, że masz poprawny model.
Na przykład analiza regresji stosowana do generowania krzywej standardowej może opierać się tylko na 3 standardach (niski, średni i wysoki), ale wynik jest wysoce prawidłowy, ponieważ istnieją mocne dowody, że odpowiedź jest liniowa między punktami.
Z drugiej strony nawet regresja z tysiącami punktów danych będzie wadliwa, jeśli do danych zostanie zastosowany niewłaściwy model.
W pierwszym przypadku wszelkie odchylenia między prognozami modelu a rzeczywistymi danymi wynikają z błędu losowego. W drugim przypadku część różnic między prognozami modelu a rzeczywistymi danymi wynika z błędu wynikającego z wyboru niewłaściwego modelu.
źródło
Wymagana liczba obserwacji w celu zidentyfikowania modelu zależy od stosunku sygnału do szumu w danych i formy modelu. Jeśli dostanę liczby 1,2,3,4,5, przewiduję 6,7,8, .... Identyfikacja modelu Boxa-Jenkinsa jest podejściem służącym określeniu podstawowego terminu ogólnego podobnie jak test na „ inteligencja numeryczna ”, którą dajemy dzieciom. Jeśli sygnał jest silny, potrzebujemy mniej obserwacji i odwrotnie. Jeśli obserwowana częstotliwość sugeruje możliwą „strukturę sezonową”, potrzebujemy powtórzeń tego zjawiska, np. Co najmniej 3 sezony (najlepiej więcej) jako ogólną zasadę w celu wyodrębnienia (zidentyfikuj to na podstawie podstawowych statystyk opisowych (acf / pacf).
źródło
Może możesz spróbować poradzić sobie z szeregiem czasowym jako układem równań liniowych i rozwiązać go przez eliminację Gaussa. Oczywiście w takim przypadku ograniczasz się do dostępnych danych, ale jest to jedyna cena, którą musisz zapłacić.
źródło