Statystyki i duże zbiory danych

15
Wybór optymalnego K dla KNN

Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ... Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać,...

15
Wyświetlanie trzech informacji na wykresie

Uwaga: dołączono teraz 50 punktów surowych danych. Chcę wyświetlić, ile badań wykonałem i ile stron ukończyłem w ciągu tygodnia, w podziale na dni, i zrobiłem to, jak pokazano poniżej: Ludzie mówili mi, że nie mogą zrozumieć wykresów, ale nie mam pojęcia, jak inaczej mogę je wyświetlić....

15
Na czym polega problem z testowaniem post hoc?

Mój profesor statystyczny twierdzi, że wszystkie książki, na które patrzę, stwierdzają: testowanie post-hoc jest nienaukowe. Najpierw musisz wyprowadzić hipotezę z teorii, a następnie zebrać dane i je przeanalizować. Ale tak naprawdę nie rozumiem na czym polega problem. Załóżmy, że widzę dane...

15
Jakie jest częste podejście do historii woltomierza?

Jakie jest częste podejście do historii woltomierza i jego odmian? Chodzi o to, że analiza statystyczna odwołująca się do hipotetycznych zdarzeń musiałaby zostać zrewidowana, gdyby później dowiedziano się, że te hipotetyczne zdarzenia nie mogły mieć miejsca, jak zakładano. Wersja historii na...

15
Splajny vs regresja procesu Gaussa

Wiem, że regresja procesu Gaussa (GPR) jest alternatywą dla używania splajnów do dopasowania elastycznych modeli nieliniowych. Chciałbym wiedzieć, w jakich sytuacjach jedna byłaby bardziej odpowiednia niż druga, szczególnie w ramach regresji bayesowskiej. Już spojrzałem na Jakie są zalety / wady...