Statystyki i duże zbiory danych

14
Dlaczego w Random Forest losowy podzbiór funkcji jest wybierany na poziomie węzła, a nie na poziomie drzewa?

Moje pytanie: Dlaczego losowy las rozważa losowe podzbiory funkcji do podziału na poziomie węzłów w obrębie każdego drzewa, a nie na poziomie drzewa ? Tło: To jest pytanie historyczne. Tin Kam Ho opublikował ten artykuł na temat budowy „lasów decyzyjnych”, losowo wybierając podzbiór cech do uprawy...

14
Istotność statystyczna (wartość p) dla porównania dwóch klasyfikatorów w odniesieniu do (średniej) AUC ROC, czułości i swoistości

Mam zestaw testowy 100 przypadków i dwa klasyfikatory. Wygenerowałem prognozy i obliczyłem AUC ROC, czułość i swoistość dla obu klasyfikatorów. Pytanie 1: Jak obliczyć wartość p, aby sprawdzić, czy jedna jest znacznie lepsza od drugiej pod względem wszystkich wyników (AOC ROC, czułość,...

14
Czy dla REML istnieje interpretacja bayesowska?

Czy dostępna jest bayesowska interpretacja REML? Według mojej intuicji, REML ma silne podobieństwo do tak zwanych empirycznych procedur estymacji Bayesa i zastanawiam się, czy wykazano jakąś asymptotyczną równoważność (powiedzmy, w ramach odpowiedniej klasy priorytetów). Zarówno empiryczne Bayesa,...

14
Dlaczego potrzebujemy alternatywnej hipotezy?

Kiedy przeprowadzamy testy, uzyskujemy dwa wyniki. 1) Odrzucamy hipotezę zerową 2) Nie odrzucamy hipotezy zerowej. Nie mówimy o akceptowaniu alternatywnych hipotez. Jeśli nie mówimy o akceptacji alternatywnej hipotezy, dlaczego w ogóle potrzebujemy alternatywnej hipotezy? Oto aktualizacja:...

14
Jak entropia zależy od lokalizacji i skali?

Entropia ciągłego rozkładu z funkcją gęstości faff określa się jako ujemny z oczekiwaniem log( f) ,log⁡(f),\log(f), a zatem jest równa H.fa= - ∫∞- ∞log( f( x ) ) f( x ) d x .Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. Także, że każdej zmiennej losowej XXX ,...

14
Czy Wolfram Mathworld popełnia błąd opisując dyskretny rozkład prawdopodobieństwa z funkcją gęstości prawdopodobieństwa?

Zwykle rozkład prawdopodobieństwa między zmiennymi dyskretnymi opisuje się za pomocą funkcji masy prawdopodobieństwa (PMF): Pracując z ciągłymi zmiennymi losowymi, opisujemy rozkłady prawdopodobieństwa za pomocą funkcji gęstości prawdopodobieństwa (PDF) zamiast funkcji masy prawdopodobieństwa....