Statystyki i duże zbiory danych

10
Testowanie hipotez i całkowity dystans wariancji vs. dywergencja Kullbacka-Leiblera

W moich badaniach natrafiłem na następujący ogólny problem: mam dwie rozkłady i w tej samej domenie i dużą (ale skończoną) liczbę próbek z tych rozkładów. Próbki są niezależnie i identycznie rozmieszczone z jednego z tych dwóch rozkładów (chociaż rozkłady mogą być powiązane: na przykład Q może być...

10
Jak wykonać analizę ROC w R za pomocą modelu Coxa

Stworzyłem kilka modeli regresji Coxa i chciałbym zobaczyć, jak dobrze działają te modele, i pomyślałem, że być może krzywa ROC lub statystyka c mogą być przydatne podobnie jak w przypadku tych artykułów: JN Armitage och JH van der Meulen, „Identyfikacja chorób współistniejących u pacjentów...

10
Jak zatem uwzględnić szacunki Bayesa w metaanalizie?

Zainspirowany tym pytaniem, a zwłaszcza „Problemem 3”: Rozkłady tylne są nieco trudniejsze do włączenia do metaanalizy, chyba że podano częsty, parametryczny opis rozkładu. Ostatnio dużo myślałem o włączeniu metaanalizy do modelu bayesowskiego - przede wszystkim jako źródła priorytetów - ale...

10
Jak grupować zmienne podłużne?

Mam kilka zmiennych, które zawierają dane podłużne od dnia 0 do dnia 7. Poszukuję odpowiedniego podejścia grupującego, które może grupować te zmienne podłużne (nie przypadki) w różne grupy. Próbowałem analizować ten zestaw danych osobno według czasu, ale wynik był dość trudny do racjonalnego...

10
Statystyki dotyczące witryn randkowych

Jestem ciekawy, w jaki sposób internetowe systemy randkowe mogą wykorzystywać dane z ankiet do określania dopasowań. Załóżmy, że mają dane dotyczące wyników z poprzednich meczów (np. 1 = szczęśliwe małżeństwo, 0 = brak drugiej randki). Następnie załóżmy, że mieli 2 pytania preferencyjne, „Jak...

10
Jakiego algorytmu można użyć do przewidywania zużycia materiałów eksploatacyjnych na podstawie danych z poprzednich zakupów?

Myśląc o rzekomo prostym, ale interesującym problemie, chciałbym napisać kod do prognozowania materiałów eksploatacyjnych, których będę potrzebować w najbliższej przyszłości, biorąc pod uwagę pełną historię moich poprzednich zakupów. Jestem pewien, że ten rodzaj problemu ma bardziej ogólną i dobrze...

10
Zastrzeżenia do randomizacji

W badaniach klinicznych - perspektywa metodologiczna , pisze Steven Piantadosi (rozdz. 13, s. 334): W rozdziale 2 zwróciłem uwagę na zarzuty dotyczące randomizacji Abla i Kocha (1997) i Urbacha (1993) oraz wskazałem na wartość badania ich obaw i prawdopodobnych błędów. Odrzucają randomizację...

10
Rozmiar drzewa w wzmocnieniu gradientowym

Zwiększanie drzewa gradientowego, jak zaproponował Friedman, używa drzew decyzyjnych z Jwęzłami końcowymi (= liśćmi) jako podstawowych uczniów. Istnieje wiele sposobów, aby wyhodować drzewo z dokładnie Jwęzłami, na przykład można je wyhodować w pierwszej kolejności w głębokości lub w pierwszej...