Załóżmy, że mam odpowiedzi dwuwymiarowe ze znaczną korelacją. Próbuję porównać dwa sposoby modelowania tych wyników. Jednym ze sposobów jest modelowanie różnicy między dwoma wynikami: Innym sposobem jest użycie lub ich: ( y i j = β 0 + czas + X ′ β
Załóżmy, że mam odpowiedzi dwuwymiarowe ze znaczną korelacją. Próbuję porównać dwa sposoby modelowania tych wyników. Jednym ze sposobów jest modelowanie różnicy między dwoma wynikami: Innym sposobem jest użycie lub ich: ( y i j = β 0 + czas + X ′ β
Otrzymałem trzy zredukowane modele z oryginalnego pełnego modelu przy użyciu wybór do przodu eliminacja wsteczna Technika penalizacji L1 (LASSO) Dla modeli uzyskanych za pomocą selekcji do przodu / eliminacji wstecznej uzyskałem oszacowane krzyżowo oszacowanie błędu prognozowania przy użyciu...
Rozumiem, że jeśli mam dwa modele A i B, a A jest zagnieżdżone w B, to biorąc pod uwagę pewne dane, mogę dopasować parametry A i B za pomocą MLE i zastosować uogólniony test współczynnika wiarygodności dziennika. W szczególności, rozkład testu należy z stopni swobody, gdzie jest różnicą liczby...
Mam zestaw danych z trzema zmiennymi, gdzie wszystkie zmienne są liczbowe. Nazwijmy to , i . Dopasowuję model regresji z perspektywy Bayesa za pomocą MCMCyyyx1x1x_1x2x2x_2rjags Zrobiłem analizę eksploracyjną, a wykres rozrzutu sugeruje, że należy użyć wyrażenia kwadratowego. Następnie zamontowałem...
Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie...
Mam więc 16 prób, w których próbuję uwierzytelnić osobę z cechy biometrycznej za pomocą Hamminga. Mój próg jest ustawiony na 3,5. Moje dane są poniżej i tylko próba 1 jest prawdziwie pozytywna: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12...
Trochę więcej informacji; Przypuszczam, że wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0, koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50), że...
BIC penalizuje na podstawie liczby parametrów. Co jeśli niektóre parametry są jakimś rodzajem zmiennych binarnych? Czy liczą się one jako pełne parametry? Ale można połączyć parametry binarnych na jednej dyskretnej zmiennej przyjąć wartość w . Czy należy je liczyć jako parametrów czy jeden...
Mam duży zestaw danych składający się z wartości kilkuset zmiennych finansowych, które można by zastosować w regresji wielokrotnej do przewidywania zachowania funduszu indeksowego w czasie. Chciałbym zmniejszyć liczbę zmiennych do około dziesięciu, jednocześnie zachowując jak największą moc...
Mam pytanie dotyczące wyboru modelu i wydajności modelu w regresji logistycznej. Mam trzy modele oparte na trzech różnych hipotezach. Pierwsze dwa modele (nazwijmy je z i x) mają tylko jedną zmienną objaśniającą w każdym modelu, a trzeci (nazwijmy to w) jest bardziej skomplikowany. Używam AIC do...
Chcę wybrać modele za pomocą regsubsets(). Mam ramkę danych o nazwie olympiadaten (dane przesłane: http://www.sendspace.com/file/8e27d0 ). Najpierw dołączam tę ramkę danych, a następnie zaczynam analizować, mój kod to: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~...
Jestem początkującym, jeśli chodzi o obsługę maszyn wektorowych. Czy istnieją jakieś wytyczne, które mówią, które jądro (np. Liniowe, wielomianowe) najlepiej nadaje się do określonego problemu? W moim przypadku muszę klasyfikować strony internetowe według tego, czy zawierają one określone...
W komentarzu do odpowiedzi na to pytanie stwierdzono, że zastosowanie AIC w wyborze modelu było równoważne z zastosowaniem wartości p 0,154. Próbowałem w R, gdzie użyłem algorytmu wyboru podzbioru „wstecznego”, aby wyrzucić zmienne z pełnej specyfikacji. Po pierwsze, sekwencyjnie wyrzucając...
Typowym podejściem do rozwiązania problemu z klasyfikacją jest identyfikacja klasy modeli kandydujących, a następnie dokonanie wyboru modelu za pomocą procedury takiej jak walidacja krzyżowa. Zazwyczaj wybiera się model z najwyższą dokładnością lub jakąś powiązaną funkcję, która koduje informacje...
Używając k-krotnie CV do wyboru spośród modeli regresji, zwykle obliczam błąd CV osobno dla każdego modelu, wraz z jego standardowym błędem SE, i wybieram najprostszy model w obrębie 1 SE modelu o najniższym błędzie CV (1 standardowa reguła błędu, patrz na przykład tutaj ). Jednak niedawno...
Typowe wartości AIC, które widziałem dla modeli logistycznych, są w tysiącach, a przynajmniej setkach. np. na http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC to 727,39 Chociaż zawsze mówi się, że AIC należy używać wyłącznie do porównywania modeli, chciałem zrozumieć, co...
W modelach szeregów czasowych, takich jak ARMA-GARCH, do wyboru odpowiedniego opóźnienia lub kolejności modelu stosowane są różne kryteria informacyjne, takie jak AIC, BIC, SIC itp. Moje pytanie jest bardzo proste, dlaczego nie używamy skorygowanego aby wybrać odpowiedni model? Możemy wybrać...
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej...