W tym konkretnym przypadku mam na myśli dzień, w którym jezioro zamarza. Ta data „zalania” występuje tylko raz w roku, ale czasami wcale nie występuje (jeśli zima jest ciepła). Tak więc w ciągu jednego roku jezioro może zamarznąć w dniu 20 (20 stycznia), a w innym roku może wcale nie zamarznąć.
Celem jest ustalenie kierowców, którzy planują datę przyjazdu.
Prognozami byłyby na przykład temperatura powietrza na jesień / zimę każdego roku. Rok może być predyktorem długoterminowego trendu liniowego.
1) Czy liczba całkowita „dzień roku” jest rozsądną zmienną odpowiedzi (jeśli nie, co to jest?)?
2) Jak sobie radzić z latami, kiedy jezioro nigdy nie zamarzło?
Edytować:
Nie wiem, jaka jest etykieta, ale pomyślałem, że opublikuję wynik otrzymanych sugestii. Oto gazeta, otwarty dostęp . Otrzymałem dobre opinie na temat zastosowanego podejścia, dzięki @pedrofigueira i @cboettig. Oczywiście błędy są moje.
Odpowiedzi:
Myślę, że można uznać „dzień roku” za zmienną odpowiedzi na regresję wielowymiarową. Aby poradzić sobie z latami, w których jezioro nigdy nie zamarzło, po prostu uważam, że dzień zamarzania jest dłuższy niż zauważalna dolna granica, która odpowiada, na przykład, dniu, w którym zawartość lodu zaczyna się topić (lub całkowicie się topi, jeśli chcesz bądź bardzo konserwatywny). Teoretycznie powinno się potem zamrozić lub może potem zamrozić, ale nie wiemy. W ten sposób możesz wykorzystać zgromadzone dane dotyczące różnych parametrów, aby zrozumieć, jak zależy od nich dzień zamrożenia, jeśli pozwolono, by było ono późniejsze niż ostatni możliwy do zaobserwowania termin. Następnie możesz użyć modelu Tobitdo obsługi jednocześnie dni zamrożenia (odpowiadających „normalnym” punktom danych) i dolnym limitom (odpowiadającym limitom, a zatem regresji ocenzurowanej).
Aby poprawnie uwzględnić zmierzone dolne granice w analizie, można użyć modelu regresji ocenzurowanej, w którym zmienna zależna ma wartość odcięcia na wartości dolnej granicy. Wyżej wymieniony model Tobit jest odpowiedni dla tego przypadku; zakłada istnienie nieobserwowalnej (ukrytej) zmiennej zależnej która w naszym przypadku odpowiada dacie zamarzania, jeśli zima przedłuży się na czas nieokreślony. Zauważalny zmienna zależna Y I (to jest mierzone niższe ograniczenie datę zamrażania) Następnie przyjmuje się jako równą utajonego zmiennej w nieobecności Dolna granica L ı i równej dolnej granicy inaczejy∗ja yja L.ja
Zastosowanie modelu Tobit do obsługi cenzury obserwacja po obserwacji skutkuje funkcją logarytmu wiarygodności formularza
gdzie i Φ ( . ) oznaczają odpowiednio funkcje prawdopodobieństwa i gęstości skumulowanej standardowego rozkładu normalnego. Indeks i działa na podstawie obserwacji, a j na zmiennych niezależnych. Roztwór do analizy regresji liniowej jest zestaw parametrów p j (w tym z osią) maksymalizuje funkcję log-likelihood.ϕ ( . ) Φ ( . ) ja jot βjot
źródło
Dzień roku jest jedną sensowną zmienną predykcyjną, dlatego myślę, że rozsądnie jest traktować ją jak sugeruje @pedrofigueira.
W przypadku innych zmiennych predykcyjnych może być konieczne zachowanie ostrożności podczas reprezentowania czasu. Wyobraź sobie na przykład, że masz temperatury powietrza w dzień - jak modelowałbyś temperaturę powietrza jako predyktor lodu w dzień? Nie sądzę, aby porównywanie próbek z tego samego roku było wystarczające.
W każdej takiej analizie myślę, że pomaga spisać, co twoim zdaniem może być wiarygodnym modelem (lub modelami) generowania danych (gdzie pewna fizyka może być dostępna jako przewodnik). Na przykład rozsądnym modelem może być całkowanie liczby dni poniżej zamarzania, a kiedy ta całka przekroczy próg (np. Związany z masą termiczną jeziora), następuje zalodzenie. Z takiego modelu można następnie zapytać, co jest rozsądnym przybliżeniem, a co nie.
Na przykład dzień w roku jako predyktor ma znaczenie dla tego modelu tylko w takim stopniu, w jakim dzień w roku jest dobrym predyktorem temperatury. Znając w ten sposób tylko dzień roku, wystarczyłby przeciętny dzień w roku odpowiadający progowi zalodzenia, być może z pewnym rozkładem normalnym wynikającym z wahań temperatury w ciągu roku, a zatem szukającym trendu w ciągu dnia roku jest całkowicie uzasadnione.
Ale jeśli znasz inne zmienne, takie jak temperatura powietrza w ciągu dnia, prawdopodobnie masz do czynienia z nieco bardziej skomplikowanym modelem w bardziej bezpośredni sposób. Jeśli po prostu używasz rocznych wartości (minimum? Oznacza?) Niż zmienna jako predyktor lodowego dnia, wydaje się również rozsądne (na podstawie tego samego argumentu jak powyżej).
źródło
W przypadku tego problemu potrzebujesz dwóch zmiennych odpowiedzi. Jedna odpowiedź boolowska, która wskazuje, czy jezioro zamarzło, czy nie, i jedna odpowiedź całkowita, podająca dzień roku, pod warunkiem, że wskaźnik jest prawdziwy. W latach, gdy jezioro zamarzło, obserwuje się zarówno wartość logiczną, jak i całkowitą. W latach, gdy jezioro nie zamarzło, wartość logiczna jest obserwowana, a liczba całkowita nie. Możesz użyć regresji logistycznej dla wartości logicznej. Regresja dla dnia roku może być zwykłą regresją liniową.
Okrągły charakter dnia w roku nie powinien stanowić problemu, pod warunkiem, że można liczyć kolejne możliwe dni zamrożenia w danym okresie. Jeśli zastanawiasz się, od czego zacząć numerowanie, sugerowałbym dzień, w którym dokonano pomiaru predyktorów. Jeśli chcesz, aby model reprezentował skutki przyczynowe, musi być tak, że wszystkie predyktory zostały zmierzone przed jakimkolwiek możliwym zamrożeniem.
Aby obsłużyć liczbę całkowitą i ograniczony charakter dnia w roku, można zastosować model dyskretyzacji. Oznacza to, że istnieje prawdziwa wartość ukryta, która generuje obserwację w następujący sposób: jeśli wartość mieści się w granicach, wówczas obserwacja jest równa wartości ukrytej zaokrąglonej do najbliższej liczby całkowitej, w przeciwnym razie wartość zostanie obcięta do granic. Sama wartość ukryta może być następnie zamodelowana jako funkcja liniowa predyktorów plus szum.
źródło
To, co masz, to dane czasu do zdarzenia, które są również nazywane analizą przeżycia. To nie jest tak naprawdę moja dziedzina, więc nie udzielam tutaj szczegółowej odpowiedzi. Googling w poszukiwaniu „danych dotyczących czasu zdarzenia” lub „analizy przeżycia” da ci wiele trafień!
Dobrym punktem wyjścia może być rozdział (13) na temat analizy przeżycia w Venables / Ripley: MASS lub klasyczny „The Statistics Analysis of Failure Time Data, Second Edition” John D. Kalbfleisch, Ross L. Prentice (autor)
EDYCJA, ROZSZERZONA ODPOWIEDŹ
Alternatywą dla analizy przeżycia może być aproksymacja regresji logistycznej porządkowej. Przykładowo, w twoim przypadku pierwszego dnia zamrożenia, zdefiniuj niektóre daty, dla których podajesz stan „były zamrożone przed lub przed”, 0 (bez zamrażania), 1 (zamrażanie). To ładnie dostosowuje się do lat bez zamrażania, po prostu masz wektor odpowiedzi zero. Jeśli wybranymi datami są, powiedzmy,
i ogólnie wszystkie wektory odpowiedzi będą miały początkowy blok zer, a następnie blok jedności. Następnie możesz użyć tego z reginalną regresją logistyczną, uzyskując oszacowane prawdopodobieństwo zamrożenia dla każdej daty. Wykreślenie tej krzywej da przybliżenie krzywej przeżycia (w tym kontekście przeżycie staje się „jeszcze nie zamrożone”).
Można również zobaczyć twoje dane jako powtarzające się zdarzenia, ponieważ rzeka zawiesza się (prawie) każdego roku. Zobacz moją odpowiedź tutaj: Znalezienie znaczących predyktorów readmisji psychiatrycznych
źródło