Statystyki i duże zbiory danych

12
Co to jest korekta uprzedzeń? [Zamknięte]

Zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Dodaj szczegóły i wyjaśnij problem, edytując ten post . Zamknięte 4 lata temu . Widziałem wiele miejsc, w których mają zestawy danych...

12
Jak zmniejszyć liczbę elementów za pomocą analizy czynnikowej, spójności wewnętrznej i teorii odpowiedzi na element w połączeniu?

Jestem w trakcie empirycznego opracowywania kwestionariusza i użyję dowolnych liczb w tym przykładzie do zilustrowania. Dla kontekstu opracowuję kwestionariusz psychologiczny mający na celu ocenę wzorców myślenia powszechnie identyfikowanych u osób z zaburzeniami lękowymi. Element może wyglądać...

12
PCA i losowe lasy

W ostatnim konkursie Kaggle (ręcznie) zdefiniowałem 10 dodatkowych funkcji dla mojego zestawu treningowego, które następnie zostaną wykorzystane do wyszkolenia losowego klasyfikatora lasów. Postanowiłem uruchomić PCA w zestawie danych z nowymi funkcjami, aby zobaczyć, jak się ze sobą porównują....

12
SVD macierzy z brakującymi wartościami

Załóżmy, że mam macierz rekomendacji w stylu Netflix i chcę zbudować model, który przewiduje potencjalne przyszłe oceny filmów dla danego użytkownika. Stosując podejście Simona Funka, można by użyć stochastycznego spadku gradientu, aby zminimalizować normę Frobeniusa między pełną macierzą a...

12
hierarchiczne modele bayesowskie a empiryczne bayesowskie

Czy uważasz, że HBM vs EB to dwie alternatywy, w których hiperparametry są „w grze” próbkowania / szacowania / itp.? Istnieje wyraźny związek między tymi dwoma. Czy uważasz, że HBM jest bardziej „w pełni bayesowski” niż EB? Czy jest miejsce, w którym mogę zobaczyć, jakie są różnice między byciem...

12
randomForest wybiera regresję zamiast klasyfikacji

Korzystam z pakietu randomForest w R i korzystam z danych tęczówki, generowany losowy las jest klasyfikacją, ale kiedy używam zestawu danych z około 700 funkcjami (każdy z nich to piksel na obrazie 28 x 28 pikseli) i kolumna etykiety jest nazywana label, randomForestgenerowana jest regresja....