Statystyki i duże zbiory danych

12
Informacje poza matrycą dla regresji logistycznej

Jest dla mnie jasne i dobrze wyjaśnione na wielu stronach, jakie informacje wartości na przekątnej macierzy kapelusza dają regresję liniową. Macierz kapeluszowa modelu regresji logistycznej jest dla mnie mniej jasna. Czy jest identyczny z informacjami uzyskanymi z matrycy kapelusza przy...

12
Najlepsze praktyki tworzenia „uporządkowanych danych”

Hadley Wickham napisał w zeszłym roku w JSS gwiezdny artykuł zatytułowany „Tidy Data” ( link ) na temat manipulacji danymi i doprowadzenia danych do stanu „optymalnego” w celu przeprowadzenia analizy. Zastanawiałem się jednak, jakie były najlepsze praktyki w zakresie prezentacji danych...

12
Statystyki pizzy dla mas

Krótki wpis na stronie internetowej NY Times zawiera Fakty i liczby dotyczące konsumpcji pizzy w Stanach Zjednoczonych. Interesująco interesuje mnie sposób, w jaki statystyki są wykorzystywane (lub nadużywane) w celu dostarczania informacji ogółowi odbiorców, a na podstawie przedstawionych...

12
Oblicz prawdopodobieństwo logarytmiczne „ręcznie” dla uogólnionej regresji nieliniowej metodą najmniejszych kwadratów (NLM)

Próbuję obliczyć prawdopodobieństwo logarytmiczne dla uogólnionej regresji nieliniowej metodą najmniejszych kwadratów dla funkcji zoptymalizowanej przez funkcja w pakiecie R , przy użyciu macierzy kowariancji wariancji generowanej przez odległości na drzewie filogenetycznym przy założeniu ruchu...

12
Inwersja jagód

Mam duży zbiorczy zestaw danych rynkowych dotyczących sprzedaży wina w USA i chciałbym oszacować popyt na niektóre wina wysokiej jakości. Te udziały w rynku zostały zasadniczo wyprowadzone z losowego modelu użytkowego w postaci Uja j t= X′j tβ- α pj t+ ξj t+ ϵja j t≡ δj t+ ϵj...

12
Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?

Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy...

12
Trudności ze znalezieniem odpowiedniego modelu dopasowanego do danych zliczających z mieszanymi efektami - ZINB czy coś innego?

Mam bardzo mały zestaw danych na temat liczebności pojedynczych pszczół, które mam problemy z analizą. Są to dane zliczania i prawie wszystkie zliczenia są w jednym traktowaniu, a większość zer w drugim traktowaniu. Istnieje również kilka bardzo wysokich wartości (po jednej w dwóch z sześciu...

12
Clopper-Pearson dla nie matematyków

Zastanawiałem się, czy ktokolwiek może wyjaśnić mi intuicję poza Clopper-Pearson CI dla proporcji. O ile mi wiadomo, każdy element CI zawiera wariancję. Jednak w przypadku proporcji, nawet jeśli moja proporcja wynosi 0 lub 1 (0% lub 100%), można obliczyć CI Cloppera-Pearsona. Próbowałem spojrzeć...

12
Metody MCMC - wypalanie próbek?

W metodach MCMC wciąż czytam o burn-inczasie lub liczbie próbek "burn". Co to dokładnie jest i dlaczego jest potrzebne? Aktualizacja: Czy po stabilizacji MCMC pozostaje stabilny? W jaki sposób pojęcie burn-inczasu jest powiązane z czasem