Statystyki i duże zbiory danych

181
Jak podsumować dane według grupy w R? [Zamknięte]

Mam ramkę danych R taką jak ta: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Potrzebuję uzyskać ramkę danych w następującej formie: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Numer grupy może się różnić,...

181
Co to jest naukowiec?

Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył...

172
Jak interpretować wykres QQ

Pracuję z małym zestawem danych (21 obserwacji) i mam następujący normalny wykres QQ w R: Widząc, że fabuła nie obsługuje normalności, co mogę wnioskować o rozkładzie podstawowym? Wydaje mi się, że rozkład bardziej przesunięty w prawo byłby lepszym rozwiązaniem, prawda? Jakie inne wnioski...

159
ROC vs krzywe precyzji i przywołania

Rozumiem formalne różnice między nimi, chcę wiedzieć, kiedy bardziej odpowiednie jest użycie jednego kontra drugiego. Czy zawsze zapewniają komplementarny wgląd w działanie danego systemu klasyfikacji / wykrywania? Kiedy uzasadnione jest podanie ich obu, powiedzmy, w formie papierowej? zamiast...

153
Generatywne a dyskryminujące

Wiem, że generatywny oznacza „oparty na P.( x , y)P.(x,r)P(x,y) ”, a dyskryminujący oznacza „oparty na P.( y| x)P.(r|x)P(y|x) ”, ale jestem zdezorientowany w kilku kwestiach: Wikipedia (+ wiele innych trafień w sieci) klasyfikuje takie rzeczy jak maszyny SVM i drzewa decyzyjne jako...

147
Czy analizę głównych składników można zastosować do zbiorów danych zawierających mieszankę zmiennych ciągłych i kategorycznych?

Mam zestaw danych, który zawiera zarówno dane ciągłe, jak i kategoryczne. Analizuję za pomocą PCA i zastanawiam się, czy dobrze jest uwzględnić zmienne kategorialne jako część analizy. Rozumiem, że PCA można zastosować tylko do zmiennych ciągłych. Czy to jest poprawne? Jeśli nie można go użyć do...