Statystyki i duże zbiory danych

9
Wykrywanie części piosenki

Mam nadzieję, że nie jest to zbyt subiektywne ... Szukam pewnego kierunku w wysiłkach zmierzających do wykrycia różnych „części” piosenki, niezależnie od stylu muzycznego. Nie mam pojęcia, gdzie szukać, ale ufając potędze innych stron StackOverflow, pomyślałem, że ktoś tutaj może pomóc wskazać...

9
Jak zsumować dwie zmienne w różnych skalach?

Jeśli mam dwie zmienne następujące po dwóch różnych rozkładach i mające różne odchylenia standardowe ... Jak muszę przekształcić dwie zmienne, aby przy sumowaniu te dwa wyniki nie były „napędzane” przez zmienną. Na przykład ... Zmienna A jest mniej lotna niż zmienna B (w zakresie od 0 do 3000), a...

9
Grupowanie z asymetrycznymi pomiarami odległości

Jak grupujesz obiekt za pomocą asymetrycznej miary odległości? Załóżmy na przykład, że grupujesz zbiór danych z dniami tygodnia jako cechą - odległość od poniedziałku do piątku nie jest taka sama jak odległość od piątku do poniedziałku. Jak włączyć to do pomiaru odległości algorytmu...

9
Jak wybrać liczbę podziałów w rpart ()?

Użyłem rpart.controldo minsplit=2i dostał następujące wyniki z rpart()funkcji. Czy muszę unikać podziału 3 lub 7, aby uniknąć przeładowania danych? Czy nie powinienem używać splitów 7? Proszę daj mi znać. Zmienne faktycznie używane w konstrukcji drzewa: [1] ct_a ct_b usr_a Root node error:...

9
W którym ustawieniu spodziewałbyś się, że model znaleziony przez LARS najbardziej różni się od modelu znalezionego przez wyczerpujące wyszukiwanie?

Trochę więcej informacji; Przypuszczam, że wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0, koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50), że...

9
Zrozumienie wyników regresji kalenicy

Jestem nowy w regresji grzbietu. Kiedy zastosowałem liniową regresję kalenicy, otrzymałem następujące wyniki: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668...

9
Rozkład odchylenia standardowego

To pytanie dotyczyło rozkładu normalnego, ale zastanawiam się, co wiadomo na temat rozkładu odchylenia standardowego próbki o wielkości n pobranej z rozkładu arbitralnego. W szczególności, jakie jest odchylenie standardowe odchylenia standardowego? Dla rozkładu normalnego sd sd to σ2 n√σ2n\sigma...

9
Boxplot dla kilku dystrybucji?

Muszę narysować 20 rozkładów na jednym wykresie w R i nie wygląda mi to dobrze (zaśmiecone) przy zwykłym wykresie pudełkowym (20 pudełek), nawet przy boxwex = 0,3. Czy mógłbyś mi zasugerować, w jaki sposób mogę wykreślić rodzaj wykresu ramkowego w R dla 20 rozkładów, z kropkami jako medianą i tylko...

9
Regresja logistyczna ważona wielkością sprawy

Patrzę na kilka problemów z regresją logistyczną. („zwykłe” i „warunkowe”). Idealnie, chciałbym wyważyć każdą z wejściowych spraw, aby glm skupił się bardziej na prawidłowym przewidywaniu wyższych ważonych przypadków kosztem ewentualnego błędnego sklasyfikowania mniej ważonych przypadków. Z...

9
Jak interpretować p-wartości 0 lub 1?

Przeprowadziłem analizę ANOVA, na przykład stwierdzając interakcję między płcią a klasą, niż chcę wiedzieć, w których klasach różnią się chłopcy i dziewczęta, ale w wielu przypadkach znajduję (skorygowane) wartości p wynoszące 0 i 1. Jak / dlaczego to możliwe? Nie wydaje się właściwe...