Statystyki i duże zbiory danych

10

Wyjaśnianie średniej, mediany, trybu w terminach laika

Jak wyjaśniłbyś pojęcie średniej, mediany i trybu listy liczb i dlaczego są one ważne dla kogoś, kto ma tylko podstawowe umiejętności arytmetyczne? Nie wspominając o skośności, CLT, tendencji centralnej, ich właściwościach statystycznych itp. Wyjaśniłem komuś, że oznacza to szybki i nieprzyzwoity...

10

Ile danych do głębokiego uczenia się?

Uczę się o głębokim uczeniu się (w szczególności CNN) i o tym, jak zwykle wymaga ogromnej ilości danych, aby zapobiec nadmiernemu dopasowaniu. Jednak powiedziano mi również, że im wyższa pojemność / więcej parametrów modelu, tym więcej danych jest wymaganych, aby zapobiec nadmiernemu dopasowaniu....

machine-learning neural-networks deep-learning conv-neural-network

10

Modelowanie autokorelowanych binarnych szeregów czasowych

Jakie jest typowe podejście do modelowania binarnych szeregów czasowych? Czy istnieje papier lub podręcznik, w którym jest to traktowane? Myślę o procesie binarnym z silną autokorelacją. Coś w rodzaju znaku procesu AR (1) rozpoczynającego się od zera. Powiedz X0=0X0=0X_0 = 0 i...

regression time-series logistic binary-data autoregressive

10

D Cohena dla testu t próbki zależnej

Szybkie pytanie: widziałem d Cohena obliczonego na dwa różne sposoby dla testu t zależnych próbek (np. Projekt wewnątrz próbek testujący skuteczność leku z punktami czasowymi przed / po). Wykorzystując standardowe odchylenie wyniku zmiany w mianowniku równania dla d Cohena. Wykorzystanie...

t-test effect-size

10

Jak udowodnić współpracę z sekwencji behawioralnych

Sytuacja: dwa ptaki (samiec i samica) chronią jaja w gnieździe przed intruzem. Każdy ptak może użyć ataku lub zagrożenia do ochrony i może być obecny lub nieobecny. Z danych wynika, że zachowanie może być komplementarne - ataki mężczyzn, podczas gdy kobiety wykorzystują wyświetlanie zagrożenia i...

r sequence-analysis

10

Test asocjacji dla normalnie dystrybuowanego DV przez kierunkowe zmienne niezależne?

Czy istnieje test hipotezy, czy normalnie dystrybuowana zmienna zależna jest powiązana ze zmienną o rozkładzie kierunkowym ? Na przykład, jeśli zmienna objaśniająca to pora dnia (a założenie, że dzień tygodnia, miesiąc roku itp. Są nieistotne) - tak można wyjaśnić fakt, że godzina 23:00 jest 22...

hypothesis-testing modeling circular-statistics

10

W CLT dlaczego

Niech X1,...,XnX1,...,XnX_1,...,X_n będą niezależnymi obserwacjami z rozkładu, który ma średnią μμ\mu i wariancję σ2<∞σ2<∞\sigma^2 < \infty , gdy n→∞n→∞n \rightarrow \infty , to n−−√X¯n−μσ→N(0,1).nX¯n−μσ→N(0,1).\sqrt{n}\frac{\bar{X}_n-\mu}{\sigma} \rightarrow N(0,1). Dlaczego oznacza to,...

probability central-limit-theorem

10

Jak wykonać nieujemną regresję kalenicy?

Jak wykonać nieujemną regresję kalenicy? Lasso nieujemne jest dostępne w scikit-learn, ale dla grzbietu nie mogę wymusić nieujemności bety i rzeczywiście otrzymuję współczynniki ujemne. Czy ktoś wie, dlaczego tak jest? Czy mogę również zastosować grzbiet w kategoriach zwykłych najmniejszych...

regression lasso regularization ridge-regression

10

Co to jest izotropowa (sferyczna) macierz kowariancji?

Czy ktoś mógłby mi wyjaśnić w prosty sposób, czym jest izotropowa macierz kowariancji? Nie mogę znaleźć niczego

terminology covariance-matrix definition

10

Jaki model regresji jest najbardziej odpowiedni do użycia z danymi zliczania?

Próbuję trochę zagłębić się w statystyki, ale utknąłem z czymś. Moje dane są następujące: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 Chcę teraz zbudować model regresji, aby móc przewidzieć liczbę genów w danym roku na podstawie danych. Do tej pory robiłem to z regresją liniową, ale...

regression count-data poisson-regression

10

Jest studentizowanymi resztkami v / s standaryzowanymi resztkami w modelu lm

Czy „resztki studenckie” i „resztki standaryzowane” są takie same w modelach regresji? Zbudowałem model regresji liniowej w R i chciałem wykreślić wykres dopasowanych wartości reszt studenckich v / s, ale nie znalazłem zautomatyzowanego sposobu na zrobienie tego w R. Załóżmy, że mam model...

r regression residuals terminology

10

Odwrotna macierz kowariancji vs macierz kowariancji w PCA

Czy w PCA robi to różnicę, jeśli wybieramy główne składniki odwrotnej macierzy kowariancji LUB jeśli upuszczamy wektory własne macierzy kowariancji odpowiadające dużym wartościom własnym? Jest to związane z dyskusją w tym poście

machine-learning pca computational-statistics

10

dystrybucja grubych palców

Krótkie pytanie: czy istnieje rozkład grubych palców? Jestem pewien, że jeśli istnieje, to ma inną nazwę. Nie wiem, jak sformułować to jako funkcję analityczną. Czy możesz mi pomóc znaleźć istniejącą wersję lub zacząć formułować ją w coś czystszego niż gigantyczna symulacja? Jest to rozkład...

distributions simulation

10

Czy stronniczość jest własnością estymatora, czy poszczególnych szacunków?

Jako przykład często spotykam studentów, którzy wiedzą, że zaobserwowany jest tendencyjnym estymatorem populacji . Następnie, pisząc swoje raporty, mówią:R2R2R^2R2R2R^2 „Obliczyłem Obserwowany i Skorygowany , i były one dość podobne, co sugeruje tylko niewielką ilość błędu w uzyskanej wartości...

mathematical-statistics terminology bias estimators

10

Interpretacja współczynnika odwrotnego stosunku Millsa

Jak interpretujesz współczynnik odwrotności Millsa (lambda) w dwustopniowym modelu Heckmana

econometrics heckman selection-bias

10

Intuicyjne wyjaśnienie utraty logów

W kilku konkurencjach kaggle punktacja opierała się na „loglossie”. Dotyczy to błędu klasyfikacji. Oto odpowiedź techniczna, ale szukam intuicyjnej odpowiedzi. Naprawdę podobały mi się odpowiedzi na to pytanie dotyczące odległości Mahalanobisa, ale PCA to nie logloss. Mogę wykorzystać wartość,...

interpretation intuition loss-functions

10

Regresja: po co testować normalność ogólnych reszt, zamiast reszt zależnych od ?

Rozumiem, że w regresji liniowej przyjmuje się, że błędy rozkładają się normalnie, w zależności od przewidywanej wartości y. Następnie patrzymy na reszty jako rodzaj proxy dla błędów. Często zaleca się, aby wygenerować dane wyjściowe tak: . Nie rozumiem jednak, o co chodzi z uzyskaniem wartości...

regression assumptions

10

Czy istnieje wzór na obliczanie mediany?

Czy istnieje odpowiednik średniej formuły: m e a n =1N.∑i = 1N.Xjamean=1N∑i=1NXi\begin{equation} \mathrm{mean} = \cfrac{1}{N} \sum_{i=1}^{N} X_i \end{equation} dla

median definition

10

Rozbieżność Kullbacka-Leiblera dla dwóch próbek

Próbowałem zaimplementować oszacowanie liczbowe dywergencji Kullbacka-Leiblera dla dwóch próbek. Aby debugować implementację, narysuj próbki z dwóch rozkładów normalnych N(0,1)N(0,1)\mathcal N (0,1) i N(1,2)N(1,2)\mathcal N (1,2) . Dla prostego oszacowania wygenerowałem dwa histogramy i próbowałem...

estimation intuition kullback-leibler numerics

10

Używanie LASSO tylko do wyboru funkcji

Podczas mojej lekcji uczenia maszynowego dowiedzieliśmy się, jak regresja LASSO jest bardzo dobra w wykonywaniu wyboru funkcji, ponieważ wykorzystuje regulację .l1l1l_1 Moje pytanie: czy ludzie zwykle używają modelu LASSO tylko do dokonywania wyboru funkcji (a następnie kontynuują zrzucanie tych...

feature-selection lasso regression-strategies