Statystyki i duże zbiory danych

13
Wykorzystanie BIC do oszacowania liczby k w KMEANS

Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe...

13
Najnowocześniejsza deduplikacja

Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do...

13
Względny rozmiar wartości p dla różnych wielkości próby

Jak zmienia się względny rozmiar wartości ap przy różnych wielkościach próby? Na przykład, jeśli otrzymałeś przy n = 45 dla korelacji, a następnie przy n = 120 otrzymałeś taką samą wartość p wynoszącą 0,20, jaki byłby względny rozmiar wartości p dla drugiego testu, w porównaniu do oryginalnej...

13
Dlaczego wszystkie znane dystrybucje są niemodalne?

Nie znam żadnych dystrybucji multimodalnych. Dlaczego wszystkie znane dystrybucje są niemodalne? Czy jest jakaś „znana” dystrybucja, która ma więcej niż jeden tryb? Oczywiście mieszanki dystrybucji są często multimodalne, ale chciałbym wiedzieć, czy istnieją jakieś dystrybucje „niemiksowane”,...

13
Jak interpretować ładunki PCA?

Czytając o PCA, natrafiłem na następujące wyjaśnienie: Załóżmy, że mamy zestaw danych, w którym każdy punkt danych reprezentuje wyniki pojedynczego ucznia w teście matematycznym, teście fizyki, teście czytania ze zrozumieniem i teście słownictwa. Znajdujemy dwa pierwsze główne składniki,...

13
MCMC z algorytmem Metropolis-Hastings: wybór propozycji

Muszę wykonać symulację, aby ocenić całkę funkcji 3-parametrowej, mówimy , która ma bardzo skomplikowaną formułę. Poproszono o użycie metody MCMC w celu jej obliczenia i zaimplementowania algorytmu Metropolis-Hastings w celu wygenerowania wartości rozłożonych jako , i zasugerowano użycie 3 różnych...