Spójrz na ten fragment z „Podręcznika umiejętności uczenia się”, Palgrave, 2012, autorstwa Stelli Cottrell, strona 155:
Procenty Zauważ, kiedy podane są procenty.
Załóżmy, że powyższe oświadczenie brzmi:60% osób preferowało pomarańcze; 40% stwierdziło, że wolą jabłka.
Wygląda to przekonująco: podano wartości liczbowe. Ale czy różnica między 60% a 40% jest znacząca ? Tutaj musielibyśmy wiedzieć, ile osób zostało zapytanych. Gdyby zapytać 1000 osób, z których 600 preferowało pomarańcze, liczba ta byłaby przekonująca. Jednak jeśli zapytano tylko 10 osób, 60% oznacza po prostu, że 6 osób woli pomarańcze. „60%” brzmi przekonująco w taki sposób, że „6 na 10” nie. Jako krytyczny czytelnik musisz uważać na odsetki wykorzystane do tego, aby niewystarczająca ilość danych wyglądała imponująco.
Jak nazywa się ta cecha w statystykach? Chciałbym przeczytać więcej na ten temat.
Odpowiedzi:
Chciałbym wymienić kolejny intuicyjny przykład.
Załóżmy, że powiem ci, że mogę przewidzieć wynik każdego rzutu monetą. Nie wierzysz i chcesz przetestować moje umiejętności.
Przetestowałeś 5 razy, a ja mam je wszystkie poprawnie. Czy wierzysz, że mam specjalną zdolność? Może nie. Ponieważ mogę je wszystkie przypadkowo dobrać. (W szczególności załóżmy, że moneta jest uczciwą monetą, a każdy eksperyment jest niezależny, wtedy mogę uzyskać wszystkie prawa z bez supermocy. Zobacz dowcip na ten temat w linku Shufflepants ).0,55≈ 0,03
Z drugiej strony, jeśli przetestowałeś mnie wiele razy, to jest bardzo mało prawdopodobne, że uda mi się to zdobyć przez przypadek. Na przykład, jeśli testowałeś razy, prawdopodobieństwo, że je wszystkie poprawię, wynosi .0,5 100 ≈ 0100 0.5100≈0
Pojęcie statystyczne nazywa się „moc statystyczna” od Wikipeida
Wróć do przykładu super power on flip flip, w zasadzie chcesz przeprowadzić test hipotez.
Teraz, jak widać na przykładzie numerycznym (przetestuj mnie 5 razy vs przetestuj mnie 100 razy), na wielkość statystyczną wpłynęła wielkość próbki.
Więcej do przeczytania tutaj . (bardziej techniczny i oparty na t-teście).
Interaktywne narzędzie do zrozumienia siły statystycznej można znaleźć tutaj . Uwaga, moc statystyczna zmienia się wraz z wielkością próbki!
źródło
źródło
Ta koncepcja jest konsekwencją prawa wielkich liczb . Z Wikipedii ,
Wyniki z małej próbki mogą być dalej od wartości oczekiwanej niż z większej próbki. Tak więc, jak stwierdzono w pytaniu, należy zachować ostrożność w przypadku wyników obliczonych z małych próbek. Pomysł jest również dość dobrze wyjaśniony w tym filmie na YouTubie .
źródło
Jesteśmy w stanie oszacować pewną liczbę populacji według pewnej liczby próbek. W tym przypadku używamy proporcji próby do oszacowania proporcji populacji, ale zasada jest znacznie bardziej ogólna.
Gdy bierzemy coraz większe próbki (przy użyciu losowego próbkowania), średnie próbek będą miały tendencję do zbliżania się do średniej populacji. (To jest prawo wielkich liczb.)
Jednak tak naprawdę chcemy mieć pojęcie o tym, jak daleko jesteśmy (np. Może to być reprezentowane przez szerokość przedziału ufności dla proporcji lub margines błędu, który zwykle wynosi połowę takiej szerokości) .
W rezultacie jesteśmy bardziej pewni dokładności naszego oszacowania, gdy próbka jest duża - jeśli powtórzymy nasz eksperyment ponownie, inne takie środki byłyby zbliżone do obecnego - skupiają się coraz ściślej i ponieważ (w tym przypadku) nasze oszacowanie jest obiektywne, gromadzą się wokół wartości, które próbujemy oszacować. Średnia z pojedynczej próby staje się coraz bardziej informująca o tym, gdzie może być średnia populacji.
źródło
Podstawową zasadą w przypadku „liczenia” statystyk, takich jak liczenie osób lubiących pomarańcze lub liczenie „kliknięć” w liczniku Geigera z powodu rozpadu radioaktywnego, jest to, że margines błędu dla zliczania jest mniej więcej kwadratem -root oczekiwanej wartości zliczania. Znane są statystyki zliczania to statystyki Poissona.
Pierwiastek kwadratowy z 6 wynosi 2,4, więc margines błędu wynosi około 40% (2,4 / 6). Pierwiastek kwadratowy z 600 wynosi 24, więc margines błędu wynosi około 4% (24/600). Dlatego liczenie 600 jest bardziej znaczące niż liczenie 6. Błąd względny wynosi jedną dziesiątą.
Jestem trochę niechlujny w kwestii definicji marginesu błędu. To tak naprawdę wartość 1-sigma i nie jest to trudne ograniczenie, ale jest to zakres, w którym spodziewana jest większość (68%) pomiarów. Więc jeśli oczekujesz 6 pomarańczowych zjadaczy, spodziewałbyś się, że seria sondaży da ci głównie liczby w przedziale od 4 do 8, np. 6,6,5,6,7,2,4,6,3,5,6, 6,7,6,10,8,6,5,6,6,9,3,7,8.
źródło
Nie mam nazwy, której szukasz, ale problem nie jest statystyczny. Psychologicznie sposób, w jaki ludzie przetwarzają liczby w naszych mózgach, przypisuje większą wagę (autorytet) większym liczbom niż mniejszym liczbom, ponieważ wielkość (rozmiar fizyczny) jest wizualnie równie ważna jak wartość reprezentatywna. Zatem 600/1000 wydaje się bardziej wiarygodny niż 6/10. Dlatego kupujący wolą widzieć „10% zniżki!” dla wartości mniejszych niż 100 i „Oszczędź 10 $!” dla wartości powyżej 100 (zwanych „regułą 100”). Chodzi o to, jak nasze mózgi reagują na percepcję.
Niesamowite spojrzenie na to i podobne zjawiska omawia Nick Kolenda w swoim internetowym traktacie „ Ogromny przewodnik po psychologii cen ”.
źródło
Chociaż rzeczywisty margines błędu jest ważny, powodem, dla którego brzmi on bardziej przekonująco, jest bardziej heurystyczne (reguła) doświadczenie z ludźmi. Rzeczywisty margines błędu potwierdza, że ta heurystyka ma swoje zalety.
Jeśli próbka to 6 za, a 4 przeciw, może to być 50/50, jeśli jedna osoba zmieni swój głos lub jedna osoba zostanie błędnie odnotowana. Po stronie 6 są tylko dwie osoby. Wszyscy znają dwa płatki, wszyscy wiedzą, że próbka może zostać wybrana: zapytaliście tylko kelnerki i nikogo innego. Albo sondowałeś tylko 10 profesorów uniwersyteckich w salach uniwersyteckich. Albo zapytałeś 10 bogatych ludzi poza Saks Fifth Avenue.
Nawet matematyczny margines błędu zakłada prawdziwą przypadkowość i nie uwzględnia stronniczości selekcji, uprzedzeń autoselekcji ani niczego innego, ludzie mogą to intuicyjnie zrozumieć.
Dla porównania, wynik 600 vs. 400 ma z jednej strony o 200 więcej osób, a 100 osób musiałoby zmienić zdanie. Liczby te są bardzo trudne do zdobycia (ale nie niemożliwe) przez jakiś przypadek miejsca, w którym przeprowadzałeś ankietę, w jaki sposób sprawiłeś, że ludzie się zgodzili, jak ludzie zrozumieli lub zinterpretowali pytanie itp.
Jest to bardziej przekonujące nie ze względu na matematyczny dowód, że tak powinno być, ale ponieważ wiemy z doświadczenia, że tłumy 1000 są znacznie bardziej zróżnicowane w swoich opiniach (na cokolwiek) niż grupa 10. (chyba że potajemnie to zrobiłeś) Twoje ankiety na zjeździe partii politycznej, wiecu KKK lub czymś innym, co może przyciągnąć jednostronny tłum).
Matematyka precyzyjnie określa ilościowo to, co wiemy już intuicyjnie; że łatwiej jest losowo napotkać jeden lub dwa zabłąkane głosy na 10, niż przypadkowo napotkać 100 lub 200 zabłąkanych głosów na 1000.
źródło
Coś, o czym nie wspomniano, to spojrzenie na problem z bayesowskiego punktu widzenia.
Pamiętaj, że chociaż te wykresy wyglądają podobnie do david25272, reprezentują coś zupełnie innego .
źródło
Krótka odpowiedź:
Zasadniczo bardziej przekonujące jest posiadanie 600 na 1000 niż sześć na 10, ponieważ przy równych preferencjach jest znacznie bardziej prawdopodobne, że 6 na 10 wystąpi przypadkowo.
Załóżmy, że odsetek, który preferował pomarańcze i jabłka, jest w rzeczywistości równy (czyli 50% każdy). Nazwij to hipotezą zerową. Biorąc pod uwagę te równe prawdopodobieństwa, prawdopodobieństwo tych dwóch wyników jest następujące:
(Dla uproszczenia zakładam nieskończoną populację, z której można pobrać nieograniczoną liczbę próbek).
Prosta pochodna
Jednym ze sposobów uzyskania tego wyniku jest po prostu wymienienie potencjalnych sposobów łączenia ludzi w naszych próbkach:
Dla dziesięciu osób jest to łatwe:
Rozważ losowe pobranie próbek 10 osób z nieskończonej populacji osób o równych preferencjach dotyczących jabłek lub pomarańczy. Przy równych preferencjach łatwo jest po prostu wymienić wszystkie potencjalne kombinacje 10 osób:
Oto pełna lista.
r jest liczbą wyników (osoby, które wolą pomarańcze), C jest liczbą możliwych sposobów, że wiele osób woli pomarańcze, a p jest wynikowym dyskretnym prawdopodobieństwem, że wiele osób woli pomarańcze w naszej próbie.
(p to tylko C podzielone przez całkowitą liczbę kombinacji. Zauważ, że istnieje 1024 sposobów na uporządkowanie tych dwóch preferencji łącznie (tj. 2 do potęgi 10).
(Ogólnie rzecz biorąc mówimy o n C r kombinacjach wyników r z próbki n osób. Istnieją kalkulatory online, których można użyć do weryfikacji tych liczb.)
Ta lista pozwala nam podać powyższe prawdopodobieństwa za pomocą tylko podziału. Istnieje 21% szansy na uzyskanie 6 osób w próbie, które wolą pomarańcze (210 z 1024 kombinacji). Szansa na uzyskanie sześciu lub więcej osób w naszej próbie wynosi 38% (suma wszystkich próbek z sześcioma lub więcej osobami lub 386 z 1024 kombinacji).
Graficznie prawdopodobieństwa wyglądają tak:
Przy większych liczbach liczba potencjalnych kombinacji szybko rośnie.
Dla próbek liczących zaledwie 20 osób istnieje 1 048 576 możliwych próbek, wszystkie z jednakowym prawdopodobieństwem. (Uwaga: Pokazałem tylko co drugą kombinację poniżej).
Jest tylko jedna próbka, w której wszystkie 20 osób woli pomarańcze. Kombinacje zawierające mieszane wyniki są znacznie bardziej prawdopodobne, po prostu dlatego, że istnieje wiele innych sposobów łączenia osób w próbkach.
Próbki, które są stronnicze, są znacznie bardziej mało prawdopodobne, tylko dlatego, że istnieje mniej kombinacji osób, które mogą powodować takie próbki:
Przy zaledwie 20 osobach w każdej próbie skumulowane prawdopodobieństwo posiadania 60% lub więcej (12 lub więcej) osób w naszej próbie preferujących pomarańcze spada do zaledwie 25%.
Widać, że rozkład prawdopodobieństwa staje się cieńszy i wyższy:
Przy 1000 osób liczby są ogromne
Możemy rozszerzyć powyższe przykłady na większe próbki (ale liczby rosną zbyt szybko, aby można było wymienić wszystkie kombinacje), zamiast tego obliczyłem prawdopodobieństwa w R:
Skumulowane prawdopodobieństwo posiadania 600 lub więcej spośród 1000 osób woli pomarańcze to tylko 1,364232e-10.
Rozkład prawdopodobieństwa jest teraz znacznie bardziej skoncentrowany wokół centrum:
[
(Na przykład, aby obliczyć prawdopodobieństwo dokładnie 600 z 1000 osób preferujących pomarańcze w użyciu R,
dbinom(600, 1000, prob=0.5)
co wynosi 4,633908e-11, a prawdopodobieństwo 600 lub więcej osób wynosi1-pbinom(599, 1000, prob=0.5)
, co równa się 1,364232e-10 (mniej niż 1 na miliard).źródło
Jest tak, ponieważ wyższa liczba zapewnia większą dokładność. Na przykład, jeśli wybrałbyś 1000 losowych ludzi z dowolnego miejsca na świecie, a 599 z nich to mężczyźni przeciwko 10 losowym ludziom z 6 mężczyznami, ten pierwszy byłby dokładniejszy. Podobnie, jeśli przyjmiesz populację wynoszącą 7 miliardów i obliczasz liczbę mężczyzn, uzyskasz dokładniejszą liczbę, która byłaby oczywiście bardziej przekonująca niż w przypadku zaledwie 1000 osób.
źródło