Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest
Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest
Regresja beta (tj. GLM z rozkładem beta i zwykle funkcją logit link) jest często zalecana do radzenia sobie ze zmienną zależną od odpowiedzi przyjmującą wartości od 0 do 1, takie jak ułamki, stosunki lub prawdopodobieństwa: Regresja dla wyniku (stosunek lub ułamek) od 0 do 1 . Zawsze jednak...
Jaka jest właściwa strategia przy podejmowaniu decyzji, którego modelu użyć z danymi zliczania? Mam dane, które muszę zamodelować jako model wielopoziomowy i zalecono mi (na tej stronie), że najlepszym sposobem jest to poprzez błędy lub MCMCglmm. Jednak wciąż próbuję dowiedzieć się o statystykach...
Wiem, że znormalizowane pozostałości Pearson uzyskuje się w tradycyjny probabilistyczny sposób: ri=yi−πiπi(1−πi)−−−−−---√rja=yja-πjaπja(1-πja) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} i Pozostałości dewiacji są uzyskiwane w bardziej statystyczny sposób (udział każdego punktu w...
Moje pytania to: Czy uogólnione modele liniowe (GLM) są gwarantowane, że osiągną globalne maksimum? Jeśli tak, to dlaczego? Co więcej, jakie są ograniczenia funkcji łączenia w celu zapewnienia wypukłości? Rozumiem GLM, że maksymalizują one wysoce nieliniową funkcję wiarygodności. Tak więc...
Mam klasyczny model liniowy z 5 możliwymi regresorami. Nie są ze sobą skorelowane i mają dość niską korelację z odpowiedzią. Doszedłem do modelu, w którym 3 regresory mają znaczące współczynniki dla ich statystyki t (p <0,05). Dodanie jednej lub obu pozostałych 2 zmiennych daje wartości p>...
W modelach liniowych musimy sprawdzić, czy istnieje relacja między zmiennymi objaśniającymi. Jeśli korelują one zbyt mocno, występuje kolinearność (tzn. Zmienne częściowo się wyjaśniają). Właśnie patrzę właśnie na korelację par pomiędzy każdą z zmiennych objaśniających. Pytanie 1: Co klasyfikuje...
Zawsze trudno mi wyjaśnić odbiorcom techniki statystyczne bez tła statystycznego. Gdybym chciał wyjaśnić, czym jest GLM dla takich odbiorców (bez rzucania statystycznego żargonu), jaki byłby najlepszy lub najskuteczniejszy sposób? Zazwyczaj tłumaczę GLM trzema częściami - (1) składową losową,...
Nadal jestem całkiem nowy w uogólnionych modelach liniowych i mam problem z notacją w większości tekstów GLM, które wybrałem. Czy istnieją bardzo popularne książki GLM, które lepiej nadają się do
Jak wyjaśniono w tym podręczniku kursu (strona 1) , model liniowy można zapisać w postaci: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, gdzie jest zmienną odpowiedzi, a jest zmienną objaśniającą .yyyxixix_{i}ithithi^{th} Często w celu spełnienia...
W regresji liniowej (strata kwadratowa) za pomocą macierzy mamy bardzo zwięzłą notację dla celu minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 Gdzie AAA to macierz danych, xxx to współczynniki, a bbb to odpowiedź. Czy istnieje podobna notacja macierzowa dla celu regresji...
Obecnie oceniam wielokoliniowość w moich zestawach danych. Jakie wartości progowe VIF i wskaźnika stanu poniżej / powyżej sugerują problem? VIF: Słyszałem, że VIF jest problemem.≥ 10≥10\geq 10 Po usunięciu dwóch zmiennych problemowych VIF wynosi dla każdej zmiennej. Czy zmienne wymagają...
Byłbym zainteresowany znalezieniem sposobów na R efektywnego aktualizowania modelu liniowego po dodaniu obserwacji lub predyktora. biglm ma możliwość aktualizacji podczas dodawania obserwacji, ale moje dane są na tyle małe, że mieszczą się w pamięci (chociaż mam wiele instancji do aktualizacji)....
Zjawisko „nadmiernej dyspersji” w GLM powstaje za każdym razem, gdy używamy modelu, który ogranicza wariancję zmiennej odpowiedzi, a dane wykazują większą wariancję, niż pozwala na to ograniczenie modelu. Zdarza się to często podczas modelowania danych zliczeniowych przy użyciu Poissona GLM i można...
Powiedzmy, że mam N obserwacji, być może wiele czynników, i powtarzam każdą obserwację dwa razy (lub M razy), jak regresja na tym nowym zestawie wielkości NM porównałaby się z regresją na samych oryginalnych
Po szukaniu wyjaśnienia na temat współczynników modeli liniowych tutaj mam pytanie uzupełniające dotyczące braku oznakowania (wysoka wartość p) dla współczynników poziomów czynników. Przykład: jeśli mój model liniowy zawiera współczynnik z 10 poziomami, a tylko 3 z tych poziomów mają powiązane z...
Więc bawiłem się SVM i zastanawiam się, czy to dobra rzecz: Mam zestaw funkcji ciągłych (od 0 do 1) i zestaw cech kategorycznych, które przekonwertowałem na zmienne obojętne. W tym konkretnym przypadku koduję datę pomiaru w zmiennej zastępczej: Są 3 okresy, z których mam dane i zarezerwowałem dla...
Jakie są korzyści ze wskazania struktury kowariancji w GLM (zamiast traktowania wszystkich nie-diagonalnych wpisów w macierzy kowariancji jako zera)? Oprócz odzwierciedlenia tego, co wiemy o danych, robi to poprawić dobroć dopasowania? poprawić dokładność predykcyjną przetrzymywanych...
Rozkład Tweediego może modelować skośne dane z masą punktową równą zero, gdy parametr ppp (wykładnik w relacji średnia-wariancja) wynosi od 1 do 2. Podobnie model z napompowaniem zera (inaczej ciągły lub dyskretny) może mieć dużą liczbę zer. Mam problem ze zrozumieniem, dlaczego jest tak, że...
Interesuje mnie zmiana hipotez zerowych za pomocą glm()R. Na przykład: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) sprawdza hipotezę, że p=0.5p=0.5p = 0.5 . Co jeśli chcę zmienić wartość null na ppp = jakąś dowolną wartość, w obrębie glm()? Wiem, że można to zrobić również...