Statystyki i duże zbiory danych

23

Dlaczego Laplace produkuje rzadkie rozwiązania?

Przeglądałem literaturę na temat regularyzacji i często widzę akapity, które łączą regulację L2 z przełożeniem Gaussa i L1 z Laplace'em wyśrodkowanym na zero. Wiem, jak wyglądają te priory, ale nie rozumiem, jak to przekłada się na przykład na wagi w modelu liniowym. W L1, jeśli dobrze rozumiem,...

23

Czy ostateczny (gotowy do produkcji) model powinien być szkolony na kompletnych danych, czy tylko na zestawie szkoleniowym?

Załóżmy, że trenowałem kilka modeli na zestawie treningowym, wybierz najlepszy, używając zestawu do krzyżowej weryfikacji i mierzonej wydajności na zestawie testowym. Więc teraz mam jeden ostateczny najlepszy model. Czy powinienem przekwalifikować je na wszystkie dostępne dane lub wysłać...

machine-learning validation regression-strategies

23

Czy wysokie

To pytanie zostało przeniesione z Przepełnienia stosu, ponieważ można na nie odpowiedzieć w ramach weryfikacji krzyżowej. Migrował 4 lata temu . W statystykach przeprowadzamy regresje liniowe, od samego ich początku. Ogólnie wiemy, że im wyższa tym lepiej, ale czy...

regression r-squared

23

Czy ta dystrybucja ma nazwę?

Przyszło mi dziś do głowy, że rozkład może być postrzegany jako kompromis między gaussowskim a Laplace'em dystrybucje, dla iCzy taka dystrybucja ma nazwę? I czy ma ona wyraz swojej stałej normalizacji? Rachunek mnie zaskakuje, ponieważ nie wiem, jak nawet rozpocząć rozwiązywanie dla w...

distributions normal-distribution terminology laplace-distribution distribution-identification

23

Keras, jak działa spadek szybkości uczenia się SGD?

Jeśli spojrzysz na dokumentację http://keras.io/optimizers/, w SGD znajduje się parametr rozpadu. Wiem, że to zmniejsza szybkość uczenia się w miarę upływu czasu. Nie mogę jednak dowiedzieć się, jak to dokładnie działa. Czy jest to wartość pomnożona przez współczynnik uczenia się, np. Czy lr = lr *...

neural-networks python

23

Jak interpretować histogramy podane przez TensorFlow w TensorBoard?

Niedawno biegałem i uczyłem się przepływu tensora i otrzymałem kilka histogramów, których nie umiałem interpretować. Zazwyczaj myślę o wysokości słupków jako o częstotliwości (lub częstotliwości względnej / zliczeniach). Jednak fakt, że nie ma pasków jak na zwykłym histogramie oraz fakt, że rzeczy...

machine-learning neural-networks conv-neural-network tensorflow

23

Wyjaśnienie, co Nate Silver powiedział o lessu

W pytaniu, które zadałem niedawno , powiedziano mi, że ekstrapolacja za pomocą lessa była dużym „nie-nie”. Ale w najnowszym artykule Nate'a Silvera na FiveThirtyEight.com omówił wykorzystanie lessu do prognozowania wyborów. Z lesssem omawiał specyfikę agresywnych i konserwatywnych prognoz z...

time-series forecasting predictive-models loess politics

23

Właściwości PCA dla obserwacji zależnych

Zwykle używamy PCA jako techniki redukcji wymiarów dla danych, w których zakłada się, że przypadki są identyczne Pytanie: Jakie są typowe niuanse w stosowaniu PCA w odniesieniu do zależnych danych innych niż iid? Jakie miłe / użyteczne właściwości PCA, które przechowują dane ID, są zagrożone (lub...

time-series pca non-independent iid

23

Dlaczego istnieją dwa różne formuły / notacje dotyczące utraty logistyki?

Widziałem dwa rodzaje formuł logistycznych strat. Możemy łatwo pokazać, że są identyczne, jedyną różnicą jest definicja etykiety yyy . Formułowanie / notacja 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\}

logistic generalized-linear-model notation loss-functions

23

Czy ma sens zagnieżdżanie ustalonego efektu w losowym lub jak kodować powtarzane takty w R (aov i lmer)?

I zostały pominie ten przegląd lm / lmer formuł R od @conjugateprior i irytować się według następującego wpisu: Załóżmy teraz, że A jest losowy, ale B jest stały, a B jest zagnieżdżony w A. aov(Y ~ B + Error(A/B), data=d) Poniżej przedstawiono analogiczną formułę modelu mieszanego lmer(Y ~ B...

r anova mixed-model repeated-measures lme4-nlme

23

Rozbieżność Kullbacka-Leiblera BEZ teorii informacji

Po długim przeszukiwaniu Cross Validated nadal nie czuję, że jestem bliżej zrozumienia dywergencji KL poza sferą teorii informacji. To dość dziwne, gdy ktoś z wykształceniem matematycznym łatwiej jest zrozumieć wyjaśnienie teorii informacji. Podsumowując moje rozumienie na podstawie teorii...

inference entropy information-theory kullback-leibler compression

23

Dlaczego algorytmy optymalizacyjne są zdefiniowane w kontekście innych problemów optymalizacyjnych?

Prowadzę badania nad technikami optymalizacji w uczeniu maszynowym, ale jestem zaskoczony, że duża liczba algorytmów optymalizacji jest definiowana pod kątem innych problemów z optymalizacją. Poniżej zilustruję kilka przykładów. Na przykład https://arxiv.org/pdf/1511.05133v1.pdf Wszystko...

machine-learning svm optimization

23

Czy próbkowanie w regresji logistycznej powinno odzwierciedlać rzeczywisty stosunek 1 i 0?

Załóżmy, że chcę stworzyć model regresji logistycznej, który może oszacować prawdopodobieństwo wystąpienia niektórych gatunków zwierząt żyjących na drzewach w oparciu o cechy drzew (np. Wysokość). Jak zawsze mój czas i pieniądze są ograniczone, dlatego jestem w stanie zebrać tylko ograniczoną...

logistic sampling

23

Hamiltonian Monte Carlo vs. Sekwencyjny Monte Carlo

Próbuję poznać względne zalety i wady, a także różne domeny zastosowań tych dwóch schematów MCMC. Kiedy skorzystasz z którego i dlaczego? Kiedy jedno może zawieść, a drugie nie (np. Gdzie ma zastosowanie HMC, ale nie SMC i odwrotnie) Czy jeden, bardzo naiwnie przyznany, może nałożyć miarę...

mcmc random-walk particle-filter probabilistic-programming hmc

23

Czy redukcję wymiarów podczas wizualizacji należy uznać za „zamknięty” problem rozwiązany przez t-SNE?

Dużo czytałem o algorytmie sne do redukcji wymiarów. Jestem pod wielkim wrażeniem wydajności „klasycznych” zestawów danych, takich jak MNIST, w których osiąga wyraźne rozdzielenie cyfr ( patrz oryginalny artykuł ):ttt Użyłem go również do wizualizacji funkcji poznanych przez sieć neuronową,...

clustering data-visualization dimensionality-reduction high-dimensional tsne

23

Czy format obrazu (png, jpg, gif) wpływa na to, jak trenowana jest sieć neuronowa rozpoznawania obrazu?

Wiem, że wprowadzono wiele postępów w zakresie rozpoznawania obrazów, klasyfikacji obrazów itp. Z głębokimi, splotowymi sieciami neuronowymi. Ale jeśli trenuję sieć na przykład na obrazach PNG, czy będzie ona działać tylko dla obrazów tak zakodowanych? Jakie inne właściwości obrazu mają na to...

neural-networks deep-learning image-processing

23

Jaki model statystyczny lub algorytm można zastosować do rozwiązania problemu John Snow Cholera?

Chciałbym dowiedzieć się, jak opracować przybliżenie geograficzne pewnego rodzaju epicentrum na podstawie danych z epidemii choroby John Snow Cholera. Jakie modelowanie statystyczne można zastosować do rozwiązania takiego problemu bez uprzedniej wiedzy o tym, gdzie znajdują się studnie. Jako...

bayesian spatial epidemiology gis

23

Co to znaczy z algebrą

Często w trakcie (własnego) badania statystyk spotkałem się z terminologią „ -algebra generowana przez zmienną losową”. Nie rozumiem definicji z Wikipedii , ale co najważniejsze, nie rozumiem za tym intuicji. Dlaczego / kiedy potrzebujemy algebry generowane przez zmienne losowe? Jakie jest ich...

probability random-variable sigma-algebra

23

Objaśnienie min_child_weight w algorytmie xgboost

Definicja parametru min_child_weight w xgboost jest podawana jako: minimalna suma wagi instancji (hessian) potrzebna dziecku. Jeśli krok partycji drzewa spowoduje utworzenie węzła liścia o sumie wagi instancji mniejszej niż min_child_weight, wówczas proces budowania przerwie dalsze...

machine-learning xgboost hessian

23

Podręcznik na temat * teorii * sieci neuronowych / algorytmów ML?

Każdy podręcznik, który do tej pory widziałem, opisuje algorytmy ML i sposoby ich implementacji. Czy istnieje także podręcznik, który buduje twierdzenia i dowody na zachowanie tych algorytmów? np. stwierdzenie, że w warunkach , opadanie gradientu zawsze prowadzi do ?A , B ,...

machine-learning mathematical-statistics references algorithms