Statystyki i duże zbiory danych

15
Zrozumienie k lag w rozszerzonym teście Dickeya Fullera R.

Grałem z niektórymi jednostkowymi testami root w R i nie jestem do końca pewien, co zrobić z parametrem k lag. Użyłem rozszerzonego testu Dickeya Fullera i testu Philippsa Perrona z pakietu terser . Oczywiście domyślny parametr (dla ) zależy tylko od długości serii. Jeśli wybiorę inne wartości K ,...

15
Funkcje wpływu i OLS

Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS yi=α+β⋅xi+εiyi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} gdzie chcę funkcję wpływu dla

15
Jak wykreślić dane wyjściowe klastrowania?

Próbowałem grupować zestaw danych (zestaw znaków) i otrzymałem 2 klastry. Chciałbym to przedstawić graficznie. Trochę zdezorientowany co do reprezentacji, ponieważ nie mam współrzędnych (x, y). Poszukuję również do tego celu MATLAB / Python. EDYTOWAĆ Myślę, że publikowanie danych wyjaśnia...

15
Stosowanie regresji logistycznej z niskim wskaźnikiem zdarzeń

Mam zestaw danych, w którym częstotliwość zdarzeń jest bardzo niska (40 000 z ). Stosuję w tym regresję logistyczną. Rozmawiałem z kimś, gdzie okazało się, że regresja logistyczna nie dałaby dobrej macierzy pomieszania w przypadku tak niskich danych o częstości zdarzeń. Ale z powodu problemu...

15
Jak obliczyć wariancję podziału zmiennych

Prowadzę eksperyment, w którym równolegle zbieram (niezależne) próbki, obliczam wariancję każdej grupy próbek, a teraz chcę połączyć wszystkie, aby znaleźć całkowitą wariancję wszystkich próbek. Trudno mi znaleźć na to pochodne, ponieważ nie jestem pewien terminologii. Myślę o tym jak o podziale...

15
Optymalny wybór kar dla lasso

Czy są jakieś wyniki analityczne lub prace eksperymentalne dotyczące optymalnego wyboru współczynnika kary karnej ℓ1ℓ1\ell_1Przez „ optymalny” rozumiem parametr, który maksymalizuje prawdopodobieństwo wyboru najlepszego modelu lub minimalizuje oczekiwaną stratę. Pytam, ponieważ często niepraktyczne...

15
Jak NIE używać statystyk

To jest pytanie otwarte, ale chcę być jasne. Biorąc pod uwagę wystarczającą populację, możesz być w stanie się czegoś nauczyć (jest to część otwarta), ale cokolwiek dowiesz się o swojej populacji, kiedy ma to kiedykolwiek zastosowanie do członka populacji? Z tego, co rozumiem przez statystyki,...

15
Jak działa normalizacja kwantowa?

W badaniach ekspresji genów za pomocą mikromacierzy dane dotyczące intensywności muszą zostać znormalizowane, aby można było porównać intensywności między poszczególnymi osobami, między genami. Pojęciowo i algorytmicznie, jak działa „normalizacja kwantowa” i jak wytłumaczyłbyś to...

15
CDF podniesiony do władzy?

Jeśli FZFZF_Z jest CDF, wygląda na to, że FZ(z)αFZ(z)αF_Z(z)^\alpha ( α>0α>0\alpha \gt 0 ) również jest CDF. P: Czy to wynik standardowy? P: Czy istnieje dobry sposób na znalezienie funkcji ggg pomocą X≡g(Z)X≡g(Z)X \equiv g(Z) st FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alpha , gdzie...