Statystyki i duże zbiory danych

12
Co robi statystyk?

Kiedy mówię moim nie-statystycznym przyjaciołom, że jestem studentem studiów doktoranckich w dziedzinie statystyki, mówią naturalnie „och, więc chcesz zostać profesorem?”. Mówię im „nie”, tak naprawdę planuję pracować w przemyśle. Następnie odpowiadają: „i co robić?”. Nie znalazłem dobrej...

12
Jak porównać medianę przeżycia między grupami?

Patrzę na medianę przeżycia za pomocą Kaplana-Meiera w różnych stanach dla danego rodzaju raka. Istnieją dość duże różnice między stanami. Jak mogę porównać medianę przeżycia we wszystkich stanach i ustalić, które z nich znacznie różnią się od średniej mediany przeżycia w całym...

12
Zrozumienie regresji SVM: funkcja celu i „płaskość”

SVM do klasyfikacji mają dla mnie intuicyjny sens: rozumiem, jak minimalizacja daje maksymalny margines. Nie rozumiem jednak tego celu w kontekście regresji. Różne teksty ( tu i tutaj ) opisują to jako maksymalizujące „płaskość”. Dlaczego mielibyśmy to zrobić? Co w regresji odpowiada koncepcji...

12
Akinator.com i klasyfikator Naive Bayes

Kontekst: Jestem programistą z pewnym (na wpół zapomnianym) doświadczeniem w statystyce z kursów uni. Niedawno natknąłem się na http://akinator.com i spędziłem trochę czasu próbując sprawić, by zawiodła. A kto nie był? :) Postanowiłem dowiedzieć się, jak to może działać. Po przejrzeniu Google'a i...

12
Filtrowanie ramki danych

Wciąż uczysz się podstawowych funkcji w R, funkcja podzbioru wydaje się filtrować tylko warunek oparty na pojedynczej kolumnie z wieloma warunkami lub bez? Jak mogę łatwo filtrować dane z ramki danych? gdy otrzymasz wiele warunków Kiedy warunek należy zastosować w dostępnych...

12
80% brakujących danych w jednej zmiennej

W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę...

12
Konfiguracja Sweave, R, Latex, Eclipse StatET [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 3 lata temu . Kilka dni temu widziałem post, jak skonfigurować...

12
Online, skalowalne metody statystyczne

Inspiracją do tego była wydajna regresja liniowa online , która była dla mnie bardzo interesująca. Czy są jakieś teksty lub zasoby poświęcone obliczeniom statystycznym na dużą skalę, w których obliczenia z zestawami danych są zbyt duże, aby zmieściły się w pamięci głównej, a być może zbyt...

12
Jak wykonać PCA dla danych o bardzo dużych wymiarach?

Aby przeprowadzić analizę głównego składnika (PCA), należy odjąć średnie z każdej kolumny od danych, obliczyć macierz współczynnika korelacji, a następnie znaleźć wektory własne i wartości własne. Cóż, raczej to zrobiłem, aby zaimplementować go w Pythonie, z wyjątkiem tego, że działa tylko z małymi...

12
Analiza danych wiatru za pomocą R.

Cześć, analizuję dane dotyczące wiatru w celu oszacowania energii z turbiny wiatrowej. Wziąłem 10 lat danych wiatrowych i wykreśliłem histogram; moim drugim etapem było dopasowanie rozkładu Weibulla do danych. Użyłem R z pakietem lmomdo obliczenia kształtu i skali Weibula. Użyłem tego...