Nie rozumiem, dlaczego zmniejszenie wymiaru jest ważne. Jakie są korzyści z pobrania niektórych danych i zmniejszenia ich
Nie rozumiem, dlaczego zmniejszenie wymiaru jest ważne. Jakie są korzyści z pobrania niektórych danych i zmniejszenia ich
Załóżmy, że mamy model liniowy który spełnia wszystkie założenia regresji standardowej (Gaussa-Markowa). Interesuje nas .yi=β0+β1xi+ϵiyi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iθ=1/β1θ=1/β1\theta = 1/\beta_1 Pytanie 1: Jakie założenia są konieczne, aby rozkład był dobrze zdefiniowany?...
Wprowadzenie W połączeniu prognoz jedno z popularnych rozwiązań opiera się na zastosowaniu pewnego kryterium informacyjnego. Biorąc na przykład kryterium oszacowane dla modelu , można obliczyć różnice AIC_j od AIC ^ * = \ min_j {AIC_j}, a następnie RP_j = e ^ {(AIC ^ * - AIC_j) / 2} można...
Mam dane na temat czasu między uderzeniami serca człowieka. Jednym ze wskazań ektopowych (dodatkowych) uderzeń jest to, że przedziały te są skupione wokół trzech wartości zamiast jednej. Jak mogę uzyskać ilościową miarę tego? Chcę porównać wiele zestawów danych, a te dwa 100-bin histogramy są...
Jeśli mam zmienną z 4 poziomami, teoretycznie muszę użyć 3 zmiennych zastępczych. W praktyce, jak się to faktycznie odbywa? Czy używam 0-3, czy używam 1-3 i zostawiam puste 4? Jakieś sugestie? UWAGA: Będę pracował w R. AKTUALIZACJA: Co by się stało, gdybym użył tylko jednej kolumny, która używa...
W tym roku rozpocząłem doktorat z statystyki i szukam twoich najlepszych praktyk, porad i (meta-porad) dotyczących tego, jak się rozwijać i zostać dobrym naukowcem w dziedzinie statystyki / ML. Ogólne przemyślenia i linki są mile widziane, ale aby rozpocząć grę, oto kilka pytań zebranych ze...
Jeśli podam trzy liczby, które są niezależnie i identycznie wyprowadzone ze standardowego rozkładu normalnego, to czy dałem ci trzy próbki lub jedną próbkę? Jeśli odpowiedź to jedna próbka, czy istnieje krótka nazwa tego, co dałem wam
Próbuję zbudować model predykcyjny za pomocą maszyn SVM na dość niezrównoważonych danych. Moje etykiety / wyniki mają trzy klasy: pozytywną, neutralną i negatywną. Powiedziałbym, że pozytywny przykład stanowi około 10-20% moich danych, neutralny około 50-60%, a negatywny około 30-40%. Próbuję...
Mam pewne dane szeregów czasowych, w których mierzoną zmienną są dyskretne dodatnie liczby całkowite (liczby). Chcę sprawdzić, czy z czasem (lub nie) występuje trend wzrostowy. Zmienna niezależna (x) jest w zakresie 0-500, a zmienna zależna (y) jest w zakresie 0-8. Myślałem, że odpowiem na to,...
Pytanie: Czy istnieją jakieś ogólne wytyczne dotyczące charakterystyki danych wejściowych, które można wykorzystać do podjęcia decyzji między zastosowaniem PCA a LSA / LSI? Krótkie streszczenie PCA vs. LSA / LSI: Zasada analizy składowej (PCA) i analizy utajonej semantycznej (LSA) lub utajonej...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 9 miesięcy temu . Problem wspomniany w tym pytaniu został...
BIC penalizuje na podstawie liczby parametrów. Co jeśli niektóre parametry są jakimś rodzajem zmiennych binarnych? Czy liczą się one jako pełne parametry? Ale można połączyć parametry binarnych na jednej dyskretnej zmiennej przyjąć wartość w . Czy należy je liczyć jako parametrów czy jeden...
Jaka jest różnica między modelem GLM (regresja logistyczna) ze zmienną odpowiedzi binarnej, która obejmuje podmiot i czas jako współzmienne, a analogicznym modelem GEE, który uwzględnia korelację między pomiarami w wielu punktach czasowych? Mój GLM wygląda następująco: Y(binary) ~ A +...
Potrzebuję pomocy w znalezieniu właściwego sposobu obliczania zwycięzców na naszych targach naukowych. Nie chcę, aby moja nieznajomość statystyki i matematyki przeszkadzała dziecku w wygrywaniu. (w grę wchodzi wiele świadczeń stypendialnych i awansowych). Z góry dziękuje za twoją pomoc. Najpierw...
Stworzyłem własną, nieco ulepszoną wersję termplotu, której używam w tym przykładzie. Znajdziesz ją tutaj . Wcześniej pisałem na SO, ale im więcej o tym myślę, uważam, że to prawdopodobnie bardziej dotyczy interpretacji modelu proporcjonalnych zagrożeń Coxa niż faktycznego...
Mam kilka zestawów danych rzędu tysięcy punktów. Wartości w każdym zestawie danych to X, Y, Z odnoszące się do współrzędnej w przestrzeni. Wartość Z reprezentuje różnicę wysokości w parze współrzędnych (x, y). Zazwyczaj w moim polu GIS błąd wysokości jest odniesiony w RMSE poprzez odjęcie punktu...
Szukam prostego przykładu kodu, w jaki sposób uruchomić filtr cząstek w R. Wydaje się, że pakiet pomp obsługuje bit matematyki w przestrzeni stanów, ale przykłady są nieco trudne do zaprogramowania dla prostego programisty OO, takiego jak ja, szczególnie jak załadować obserwowane dane do obiektu...
Mam duży zestaw danych składający się z wartości kilkuset zmiennych finansowych, które można by zastosować w regresji wielokrotnej do przewidywania zachowania funduszu indeksowego w czasie. Chciałbym zmniejszyć liczbę zmiennych do około dziesięciu, jednocześnie zachowując jak największą moc...
Czy istnieje ogólna zasada określająca, czy należy obliczyć korelację Pearsona dla dwóch zmiennych losowych X i Y przed podjęciem ich transformacji logicznej, czy po niej? Czy istnieje procedura sprawdzania, która jest bardziej odpowiednia? Dają podobne, ale różne wartości, ponieważ transformacja...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 3 lata temu . Jestem bardzo zainteresowany nauczeniem się, jak...