Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś
Strategie modelowania regresji
Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś
Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i...
Ponieważ RF może poradzić sobie z nieliniowością, ale nie może zapewnić współczynników, czy mądrze byłoby użyć losowego lasu do zebrania najważniejszych cech, a następnie podłączyć je do modelu wielokrotnej regresji liniowej w celu uzyskania ich współczynników?...
Czy można zastąpić model regresji logistycznej? Widziałem wideo z informacją, że jeśli mój obszar pod krzywą ROC jest większy niż 95%, to jest bardzo prawdopodobne, że będzie on nadmiernie dopasowany, ale czy można zastąpić model regresji
Zastanawiam się nad dyskusją wokół tego pytania, aw szczególności z komentarzem Franka Harrella, że oszacowanie wariancji w modelu zredukowanym (tj. Takim, z którego przetestowano i odrzucono wiele zmiennych objaśniających) powinno wykorzystywać ogólny stopień wolności Ye . Profesor Harrell...
Jak wszyscy wiemy, istnieją 2 metody oceny modelu regresji logistycznej i testują one bardzo różne rzeczy Moc predykcyjna: Uzyskaj statystykę mierzącą, jak dobrze możesz przewidzieć zmienną zależną na podstawie zmiennych niezależnych. Dobrze znanymi Pseudo R ^ 2 są McFadden (1974) oraz Cox i...
Załóżmy, że trenowałem kilka modeli na zestawie treningowym, wybierz najlepszy, używając zestawu do krzyżowej weryfikacji i mierzonej wydajności na zestawie testowym. Więc teraz mam jeden ostateczny najlepszy model. Czy powinienem przekwalifikować je na wszystkie dostępne dane lub wysłać...
Oprócz wyjątkowych okoliczności, w których absolutnie musimy zrozumieć zależność średnią, jakie są sytuacje, w których badacz powinien wybrać OLS zamiast regresji kwantylowej? Nie chcę, aby odpowiedź brzmiała „jeśli nie ma sensu rozumieć relacji ogona”, ponieważ moglibyśmy po prostu użyć regresji...
Poświęciłem dużo czasu na opracowanie metod i oprogramowania do walidacji modeli predykcyjnych w tradycyjnej dziedzinie statystyki częstokroć. Wprowadzając w życie więcej pomysłów bayesowskich i nauczając, dostrzegam kilka kluczowych różnic do przyjęcia. Po pierwsze, bayesowskie modelowanie...
Krokowe algorytmiczne metody selekcji zmiennych mają tendencję do wybierania dla modeli, które mniej lub bardziej uwzględniają każde oszacowanie w modelach regresji ( ββ\beta i ich SE, wartości p , statystyki F itp.) I prawdopodobnie wykluczą prawdziwe predyktory, takie jak obejmują fałszywe...
Frank Harrell założył blog ( Statistics Thinking) . W swoim pierwszym poście wymienia niektóre kluczowe cechy swojej filozofii statystycznej. Między innymi obejmuje: Jeśli to możliwe, ustaw wielkość próbki jako zmienną losową Co to znaczy „uczynić wielkość próby zmienną losową”? Jakie...
To jest mój pierwszy post na StackExchange, ale od dłuższego czasu używam go jako zasobu, zrobię co w mojej mocy, aby użyć odpowiedniego formatu i wprowadzić odpowiednie zmiany. Jest to również pytanie wieloczęściowe. Nie byłem pewien, czy powinienem podzielić pytanie na kilka różnych postów, czy...
W analizie dyskryminacyjnej zmienna zależna ma charakter kategoryczny, ale czy mogę użyć zmiennej kategorialnej (np. Status mieszkaniowy: wiejski, miejski) wraz z jakąś inną zmienną ciągłą jako zmienną niezależną w liniowej analizie
Korzystanie z tych danych: head(USArrests) nrow(USArrests) Mogę zrobić PCA w następujący sposób: plot(USArrests) otherPCA <- princomp(USArrests) Mogę pobrać nowe komponenty otherPCA$scores oraz odsetek wariancji wyjaśniony przez składniki z summary(otherPCA) Ale co jeśli chcę...
Po szukaniu wyjaśnienia na temat współczynników modeli liniowych tutaj mam pytanie uzupełniające dotyczące braku oznakowania (wysoka wartość p) dla współczynników poziomów czynników. Przykład: jeśli mój model liniowy zawiera współczynnik z 10 poziomami, a tylko 3 z tych poziomów mają powiązane z...
Dopasowanie oceny skłonności służy do wnioskowania przyczynowego w badaniach obserwacyjnych (patrz artykuł Rosenbaum / Rubin ). Jaka jest prosta intuicja, dlaczego to działa? Innymi słowy, dlaczego jeśli upewnimy się, że prawdopodobieństwo uczestniczenia w leczeniu jest równe dla obu grup, znikną...
Jestem mylony z założeniem liniowości logitu dla ciągłych zmiennych predykcyjnych w analizie regresji logistycznej. Czy musimy sprawdzać zależność liniową podczas przeszukiwania potencjalnych predyktorów przy użyciu analizy regresji logistycznej z jedną zmienną? W moim przypadku używam analizy...
Załóżmy, że mamy zmiennych towarzyszących i binarną zmienną wyniku . Niektóre z tych zmiennych towarzyszących są podzielone na kategorie z wieloma poziomami. Inne są ciągłe. Jak wybrałbyś „najlepszy” model? Innymi słowy, jak wybrać współzmienne, które należy uwzględnić w modelu?x 1 , … , x n...
Jednym z założeń regresji logistycznej jest liniowość logitu. Po uruchomieniu modelu testuję nieliniowość za pomocą testu Box-Tidwell. Jeden z moich ciągłych predyktorów (X) dał wynik dodatni pod kątem nieliniowości. Co mam teraz zrobić? Ponieważ jest to naruszenie założeń, muszę pozbyć się...
Opracowuję model regresji logistycznej oparty na danych retrospektywnych z krajowej bazy danych dotyczących urazów głowy w Wielkiej Brytanii. Kluczowym rezultatem jest 30-dniowa śmiertelność (oznaczona jako miara „przetrwania”). Inne miary z opublikowanymi dowodami znaczącego wpływu na wyniki...