Trywialna odpowiedź brzmi: więcej danych jest zawsze preferowanych niż mniej danych.
Problem małej wielkości próby jest jasny. W regresji liniowej (OLS) technicznie można dopasować model, taki jak OLS, gdzie n = k + 1, ale otrzymasz z niego śmieci, tj. Bardzo duże błędy standardowe. Istnieje świetny artykuł Arthura Goldbergera zatytułowany Micronumerocity na ten temat, streszczony w rozdziale 23 jego książki A Course in Econometrics .
Częstą heurystyką jest to, że powinieneś mieć 20 obserwacji dla każdego parametru, który chcesz oszacować. Zawsze jest to kompromis między rozmiarem standardowych błędów (a zatem i testowania istotności) a rozmiarem próbki. Jest to jeden z powodów, dla których niektórzy z nas nienawidzą testowania istotności, ponieważ można uzyskać niewiarygodnie mały (względny) błąd standardowy z ogromną próbką, a zatem znaleźć bezcelowe znaczenie statystyczne w naiwnych testach, takich jak to, czy współczynnik regresji wynosi zero.
Chociaż wielkość próbki jest ważna, jakość próbki jest ważniejsza, np. Czy próbka jest generalizowalna dla populacji, czy jest to prosta próbka losowa lub inna odpowiednia metodologia próbkowania (i została to uwzględniona podczas analizy), czy występuje błąd pomiaru , błąd odpowiedzi, błąd wyboru itp.