Jaka jest różnica między prawdopodobieństwem a statystykami?

Odpowiedzi:

114

Krótka odpowiedź na to pytanie, którą usłyszałem od Persi Diaconis, brzmi następująco: problemy rozważane przez prawdopodobieństwo i statystyki są odwrotne względem siebie. W teorii prawdopodobieństwa bierzemy pod uwagę pewien proces leżący u podstaw losowości lub niepewności modelowany przez zmienne losowe i ustalamy, co się stanie. W statystykach obserwujemy coś, co się wydarzyło, i próbujemy dowiedzieć się, jaki proces leżący u podstaw wyjaśniłby te obserwacje.

Mark Meckes
źródło
2
Więc statystyki obserwują to, co dzieje się w świecie fizycznym, teoretyzują na temat leżącego u ich podstaw procesu, a następnie, po znalezieniu procesu, wykorzystują go w poczuciu prawdopodobieństwa do przewidzenia, co będzie dalej?
hslc
Nie jestem statystykiem, ale z mojego rozumienia powiedziałbym, że tak, ta część statystyki.
Mark Meckes
16
Indukcja a odliczenie?
Paolo
6
Jak powiedział Paolo, teoria prawdopodobieństwa dotyczy głównie części dedukcyjnej, statystyki - części indukcyjnej procesów modelowania z niepewnością. Być może warto wspomnieć, że jeśli ktoś uważa, że ​​wiarygodne rozumowanie indukcyjne powinno być spójne, to tak naprawdę wynikiem są statystyki bayesowskie, a bardziej interesujące można to wywnioskować z teorii prawdopodobieństwa. Tak więc statystyka bayesowska jest w zasadzie zastosowaną teorią prawdopodobieństwa.
Thies Heidecke
1
@ Paolo Wnioskowanie statystyczne jest uważane za „statystykę indukcyjną”
Kervin
77

Podoba mi się przykład słoika z czerwonymi i zielonymi żelkami.

Probabilista zaczyna od znajomości każdego z nich i pyta o prawdopodobieństwo narysowania czerwonej żelki. Statystyk ustala proporcje czerwonych żelków, pobierając próbki ze słoika.

John D. Cook
źródło
Ale czy to nie tylko sformułowanie? Probabilista może zapytać: „biorąc pod uwagę, że narysowałem trzy czerwone fasolki, jakie jest prawdopodobieństwo, że proporcja wynosi pięćdziesiąt pięćdziesiąt”?
Thomas Ahle,
2
@ThomasAhle: To nie jest dobrze zdefiniowane pytanie prawdopodobieństwa, chyba że założymy jakiś podstawowy model probabilistyczny dla pierwotnego rozkładu kolorów.
Mark Meckes,
55

Mówienie, że statystyka jest po prostu odwrotnością prawdopodobieństwa, jest mylące. Tak, pytania statystyczne pytaniami o odwrotnym prawdopodobieństwie, ale są źle przedstawionymi odwrotnymi problemami , co stanowi dużą różnicę pod względem sposobu ich rozwiązania.

Prawdopodobieństwo jest dziedziną czystej matematyki - pytania dotyczące prawdopodobieństwa można stawiać i rozwiązywać za pomocą rozumowania aksjomatycznego, dlatego też na każde pytanie dotyczące prawdopodobieństwa istnieje jedna poprawna odpowiedź.

Pytania statystyczne można przekształcić w pytania prawdopodobieństwa za pomocą modeli prawdopodobieństwa . Po przyjęciu pewnych założeń dotyczących mechanizmu generującego dane możemy odpowiedzieć na pytania statystyczne za pomocą teorii prawdopodobieństwa. JEDNAK, prawidłowe sformułowanie i sprawdzenie tych modeli prawdopodobieństwa jest równie ważne, a nawet ważniejsze, niż późniejsza analiza problemu przy użyciu tych modeli.

Można powiedzieć, że statystyki składają się z dwóch części. Pierwsza część to pytanie, jak sformułować i ocenić modele probabilistyczne dla problemu; przedsięwzięcie to należy do dziedziny „filozofii nauki”. Druga część to pytanie o uzyskanie odpowiedzi po założeniu określonego modelu. Ta część statystyki jest rzeczywiście kwestią stosowanej teorii prawdopodobieństwa, aw praktyce zawiera również sporo analiz numerycznych.

Zobacz: http://bactra.org/reviews/error/

charles.y.zheng
źródło
2
Kocham cię za tę odpowiedź
badatmath
16

Podoba mi się to z Calculated Bets Steve'a Skienny (patrz link do pełnej dyskusji):

Podsumowując, teoria prawdopodobieństwa pozwala nam znaleźć konsekwencje danego idealnego świata, a teoria statystyczna pozwala nam zmierzyć stopień, w jakim nasz świat jest idealny.

ars
źródło
13

Prawdopodobieństwo to czysta nauka (matematyka), statystyki dotyczą danych. Są one powiązane, ponieważ prawdopodobieństwo stanowi pewnego rodzaju podstawę dla statystyki, dostarczając podstawowych pomysłów.


źródło
3
Więc prawdopodobieństwo jest czystą matematyką, a statystyka to matematyka stosowana?
hslc
4
Statystyki mogą być stosowane i mogą nie być; wciąż pojęcie danych jest zawsze obecne.
13

Tabela 3.1 Intuicyjnej biostatystyki odpowiada na to pytanie za pomocą diagramu pokazanego poniżej. Zauważ, że wszystkie strzałki wskazują na prawdopodobieństwo dla prawdopodobieństwa, a na lewo dla statystyk.

PRAWDOPODOBIEŃSTWO

Ogólne ---> Szczegółowe

Populacja ---> Próbka

Model ---> Dane

STATYSTYKA

Ogólne <--- Szczegółowe

Populacja <--- Próbka

Model <--- Dane

Harvey Motulsky
źródło
1
Więc statystyki są synonimem analizy danych?
hslc
3
Nie widzę żadnego rozróżnienia.
Harvey Motulsky
3
Niektóre analizy danych nie opierają się na statystykach częstych.
ks.
11

Prawdopodobieństwo odpowiada na pytania o to , co się stanie, statystyki odpowiadają na pytania o to, co się stało.

Justin Bozonier
źródło
3
Jednak w tej definicji przedział przewidywania jest raczej prawdopodobieństwem niż statystyką.
Glen_b
10

Prawdopodobieństwo polega na kwantyfikacji niepewności, podczas gdy statystyki wyjaśniają zmienność niektórych miar zainteresowania (np. Dlaczego zmieniają się poziomy dochodów?), Które obserwujemy w świecie rzeczywistym.

Wyjaśniamy tę zmienność, stosując pewne obserwowalne czynniki (np. Płeć, poziom wykształcenia, wiek itp. Dla przykładu dochodu). Ponieważ jednak nie jesteśmy w stanie uwzględnić wszystkich możliwych czynników wpływających na dochód, wszelkie niewyjaśnione warianty pozostawiamy przypadkowym błędom (czyli tam, gdzie pojawia się niepewność ilościowa).

Ponieważ przypisujemy „Wariacja = wpływ obserwowalnych czynników + efekt błędów losowych”, potrzebujemy narzędzi zapewnionych przez prawdopodobieństwo, aby uwzględnić wpływ błędów losowych na obserwowaną zmienność.

Oto kilka przykładów:

Kwantyfikacja niepewności

Przykład 1: Rzucisz 6-stronną kostką. Jakie jest prawdopodobieństwo uzyskania 1?

Przykład 2: Jakie jest prawdopodobieństwo, że roczny dochód osoby dorosłej wybranej losowo ze Stanów Zjednoczonych jest mniejszy niż 40 000 USD?

Wyjaśnienie wariantu

Przykład 1: Obserwujemy, że roczny dochód osoby jest różny. Jakie czynniki wyjaśniają zróżnicowanie dochodów osoby?

Oczywiście nie możemy uwzględnić wszystkich czynników. W ten sposób przypisujemy dochód danej osobie do niektórych obserwowalnych czynników (np. Poziom wykształcenia, płeć, wiek itp.), A wszelkie pozostałe warianty pozostawiamy niepewności (lub w języku statystyki: przypadkowym błędom).

Przykład 2: Zauważamy, że niektórzy konsumenci wybierają Tide przez większość czasu, gdy kupują detergent, podczas gdy inni konsumenci wybierają detergent marki xyz. Co wyjaśnia zmienność wyboru? Przypisujemy zmienność wyborów do niektórych obserwowalnych czynników, takich jak cena, nazwa marki itp., A wszelkie niewyjaśnione warianty pozostawiamy przypadkowym błędom (lub niepewności).

Alexis
źródło
1
Co się stanie, jeśli błędy losowe z czasem staną się większe niż obserwowalne czynniki?
hslc
W takim przypadku przerobisz swój model, ponieważ nie jest on już zgodny z rzeczywistością.
8

Prawdopodobieństwo to objęcie niepewności, podczas gdy statystyka jest empirycznym, wygłodniałym dążeniem do prawdy (oczywiście wykluczeni przeklęci kłamcy).


źródło
Myślę tu o prawdopodobieństwie częstokrzyskim / bayesowskim i wszystkich statystykach opisowych / eksploracyjnych / wnioskowania.
7

Podobnie jak powiedział Mark, statystyka była historycznie nazywana odwrotnym prawdopodobieństwem , ponieważ statystyka próbuje wywnioskować przyczyny zdarzenia na podstawie obserwacji, podczas gdy prawdopodobieństwo jest odwrotnie.

raegtin
źródło
6

Prawdopodobieństwo zdarzenia jest jego długim okresie względnej częstotliwości. Oznacza to w zasadzie , na przykład, szansę na uzyskanie „głowy” przy kolejnym rzucie monetą lub uzyskania „3” przy kolejnym rzucie kostką.

Statystyka jest każdy środek numeryczne obliczone z próbki populacji. Na przykład średnia próbki. Używamy tego jako statystyki, która szacuje średnią populacji, która jest parametrem. Zasadniczo daje to podsumowanie próbki.

  • Możesz pobrać statystyki tylko z próbki, w przeciwnym razie, jeśli obliczysz liczbową miarę populacji, nazywa się to parametrem populacji.
Tony Breyal
źródło
6

Studia prawdopodobieństwa, cóż, jakie są prawdopodobne zdarzenia. Intuicyjnie wiesz, jakie jest prawdopodobieństwo.

Statystyki to badanie danych: pokazywanie ich (za pomocą narzędzi takich jak wykresy), podsumowywanie ich (za pomocą średnich i odchyleń standardowych itp.), Wyciąganie wniosków na temat świata, z którego te dane zostały narysowane (dopasowanie linii do danych itp.), Oraz - to jest kluczowe - określenie ilościowe, jak możemy być pewni naszych wniosków.

Aby oszacować, jak możemy być pewni naszych wniosków, musimy użyć prawdopodobieństwa. Załóżmy, że masz dane z zeszłego roku na temat opadów w regionie, w którym mieszkasz i w którym mieszkam. W zeszłym roku padało średnio 1/4 cala na tydzień, gdzie mieszkasz, i 3/8 cala, gdzie mieszkam. Możemy więc powiedzieć, że opady w moim regionie są średnio o 50% większe niż w miejscu zamieszkania, prawda? Nie tak szybko, Sparky. To może być zbieg okoliczności: może w zeszłym roku zdarzyło mi się dużo deszczu. Możemy użyć prawdopodobieństwa, aby oszacować stopień pewności siebie w naszym wniosku, że mój dom jest o 50% bardziej przemoczony niż twój.

Zasadniczo można więc powiedzieć, że prawdopodobieństwo jest matematycznym fundamentem teorii statystyki.

Carlos Accioly
źródło
5

W teorii prawdopodobieństwa otrzymujemy zmienne losowe X1, X2, ... w jakiś sposób, a następnie badamy ich właściwości, tj. Obliczamy prawdopodobieństwo P {X1 \ w B1}, badamy zbieżność X1, X2, ... itd. .

W statystyce matematycznej podano n realizacji pewnej zmiennej losowej X i zbioru rozkładów D; problemem jest znalezienie wśród rozkładów z D jednego, który najprawdopodobniej wygeneruje zaobserwowane dane.


źródło
Czy w ogóle możemy znaleźć wzorce, których szukaliśmy?
hslc
4

Prawdopodobnie rozkład jest znany i można go z góry poznać - zaczynasz od znanej funkcji rozkładu prawdopodobieństwa (lub podobnej) i próbujesz na jej podstawie.

W statystyce rozkład nie jest wcześniej znany. Może być nawet niepoznawalny. Założono hipotezę o rozkładzie prawdopodobieństwa za obserwowanymi danymi, aby móc zastosować teorię prawdopodobieństwa do tych danych, aby wiedzieć, czy hipotezę zerową o tych danych można odrzucić, czy nie.

Toczy się filozoficzna dyskusja na temat tego, czy w świecie rzeczywistym istnieje coś takiego jak prawdopodobieństwo, czy też jest to idealny wymysł naszej wyobraźni matematycznej, a wszystkie nasze obserwacje mogą być wyłącznie statystyczne.

EnergyNumbers
źródło
3

Statystyka to dążenie do prawdy w obliczu niepewności. Prawdopodobieństwo to narzędzie, które pozwala nam oszacować niepewność.

(Podałem inną, dłuższą odpowiedź, która zakładała, że ​​pytano o coś w stylu „jak wytłumaczysz to swojej babci?”)

Carlos Accioly
źródło
3

(Ω,F,P)θ(Ω,F,Pθ)θ

θθ

Zastrzeżenie: powyższe są odpowiedziami matematycznymi. W rzeczywistości wiele statystyk dotyczy również projektowania / odkrywania odpowiednich modeli, kwestionowania istniejących modeli, projektowania eksperymentów, radzenia sobie z niedoskonałymi danymi itp. „Wszystkie modele są błędne”.

gusl
źródło
4
Analogicznie, jeśli zapytany „czym jest chemia?” moglibyśmy odpowiedzieć, że jest to zestaw równań różniczkowych. Opis teorii matematycznej może dać nam małe pojęcie o tym, o czym jest przedmiot, ale nie jest nim sam.
whuber
3

Prawdopodobieństwo : Biorąc pod uwagę znane parametry, znajdź prawdopodobieństwo zaobserwowania określonego zestawu danych.

Statystyka : biorąc pod uwagę określony zestaw obserwowanych danych, wnioskuj o tym, jakie mogą być parametry.

Statystyka jest „bardziej subiektywna” i „więcej sztuki niż nauki” (w odniesieniu do prawdopodobieństwa).

Example_

p

p=12HHH

18

HHHp

Różni statystycy udzielają różnych, często długich odpowiedzi.

Kenny LJ
źródło
3

Różnica między prawdopodobieństwami a statystykami polega na tym, że w prawdopodobieństwach nie ma pomyłki. Jesteśmy pewni prawdopodobieństwa, ponieważ wiemy dokładnie, ile stron ma monetę lub ile niebieskich karmelków znajduje się w wazonie. Ale w statystykach badamy część populacji tego, co badamy, i na tej podstawie staramy się zobaczyć prawdę, ale zawsze istnieje procent błędnych wniosków. Jedyną rzeczą w statystyce, która jest prawdziwa, jest to błąd%, który w rzeczywistości jest prawdopodobieństwem.

TheodoreM
źródło
2

Tekst Savage'a Podstawy statystyki cytowano ponad 12 000 razy w Google Scholar. [3] Mówi następujące.

Jest jednomyślnie uzgodnione, że statystyki zależą w jakiś sposób od prawdopodobieństwa. Ale jeśli chodzi o prawdopodobieństwo i sposób, w jaki wiąże się to ze statystykami, od czasu Wieży Babel rzadko zdarzało się tak całkowite nieporozumienie i awaria komunikacji. Niewątpliwie większość sporów ma charakter terminologiczny i zniknie w wyniku wystarczająco ostrej analizy.

https://en.wikipedia.org/wiki/Foundations_of_statistics

Zatem kwestia prawdopodobieństwa, że ​​teoria prawdopodobieństwa jest podstawą statystyki, nie podlega dyskusji. Cała reszta to uczciwa gra.

Ale starając się być bardziej pomocny, praktyczny z odpowiedzią ...

Jednak teoria prawdopodobieństwa zawiera wiele rzeczy, które są głównie matematyczne i nie mają bezpośredniego związku ze statystyką. Ponadto wiele tematów w statystyce jest niezależnych od teorii prawdopodobieństwa

https://en.wikipedia.org/wiki/Probability_and_statistics

Powyższe nie jest w żaden sposób wyczerpujące ani autorytatywne, ale uważam, że jest przydatne.

Zwykle pomogło mi to zobaczyć takie rzeczy jak ...

Descrete Mathematics >> Teoria prawdopodobieństwa >> Statystyka

Każdy z nich jest intensywnie wykorzystywany średnio w fundamentach następnego. Oznacza to, że istnieją duże skrzyżowania w sposobie studiowania podstaw następnego.

PS. Istnieją statystyki indukcyjne i dedukcyjne, więc nie na tym polega różnica.

Kervin
źródło
0

Wielu ludzi i matematyków twierdzi, że „STATYSTYKA jest odwrotnością PRAWDOPODOBIEŃSTWA”, ale nie jest szczególnie słuszna. Sposób podejścia lub metoda rozwiązania tych 2 są zupełnie inne, ale są POŁĄCZONE .

chciałbym odnieść się do mojego przyjaciela Johna D. Cooka .....

„Podoba mi się przykład słoika z czerwonymi i zielonymi żelkami.

Probabilista zaczyna od znajomości proporcji każdego z nich i powiedzmy, że znajduje prawdopodobieństwo narysowania czerwonej żelki. Statystyka określa proporcje czerwonych żelków, pobierając próbki ze słoika ”.

Teraz odsetek czerwonej galaretki uzyskanej przez pobranie próbki ze słoika jest wykorzystywany przez probabilistę do znalezienia prawdopodobieństwa wyciągnięcia czerwonej fasoli ze słoika

Rozważ ten przykład ---- >>>

W badaniu 30% studentów nie zdało fizyki, 25% nie zdało matematyki, 12% nie zdało egzaminu z fizyki i matematyki. Uczeń jest losowo wybierany, aby znaleźć prawdopodobieństwo, że uczeń zawiódł w fizyce, jeśli wiadomo, że zawiódł w matematyce.

Powyższa suma stanowi problem prawdopodobieństwa, ale jeśli przyjrzymy się uważnie, okaże się, że suma ta zawiera pewne dane statystyczne

30% studentów nie zdało fizyki, 25% matematyki Są to w zasadzie częstotliwości, jeśli obliczone są procenty. W ten sposób otrzymujemy dane statystyczne, które z kolei pomagają nam znaleźć prawdopodobieństwo

TAK PRAWDOPODOBIEŃSTWO I STATYSTYKA SĄ BARDZO DUŻO POŁĄCZONE LUB RAZEM, MOŻEMY POWIEDZIEĆ, ŻE PRAWDOPODOBIEŃSTWO JEST W ZALEŻNOŚCI OD STATYSTYKI

Hirak Mondal
źródło
0

Pojęcie „statystyki” zostało pięknie wyjaśnione przez JC Maxwella w artykule Molecules (w Nature 8, 1873, s. 437–441). Pozwól mi zacytować odpowiedni fragment:

Gdy członkowie pracujący w sekcji F otrzymują raport ze spisu powszechnego lub inny dokument zawierający dane liczbowe nauk ekonomicznych i społecznych, zaczynają od podziału całej populacji na grupy według wieku, podatku dochodowego, wykształcenia, przekonania religijne lub kryminalne. Liczba osobników jest zdecydowanie zbyt duża, aby pozwolić na śledzenie historii każdego z nich osobno, tak więc, aby ograniczyć pracę w granicach ludzkich granic, koncentrują swoją uwagę na małej liczbie sztucznych grup. Różna liczba osób w każdej grupie, a nie zmienny stan każdej osoby, jest podstawowym punktem odniesienia, na podstawie którego pracują.

To oczywiście nie jest jedyna metoda badania natury ludzkiej. Możemy obserwować zachowanie poszczególnych ludzi i porównać je z postępowaniem, którego ich poprzedni charakter i obecne okoliczności, zgodnie z najlepszą istniejącą teorią, doprowadziłyby nas do oczekiwania. Ci, którzy praktykują tę metodę, starają się poprawić swoją wiedzę na temat elementów ludzkiej natury, podobnie jak astronom koryguje elementy planety, porównując jej rzeczywistą pozycję z pozycją uzyskaną z otrzymanych elementów. Studia nad naturą ludzką prowadzone przez rodziców i dyrektorów szkół, przez historyków i mężów stanu należy zatem odróżnić od badań prowadzonych przez rejestratorów i tabulatorów oraz tych mężów stanu, którzy wierzą w liczby. Jedną można nazwać historyczną, a drugą metodę statystyczną.

Równania dynamiki całkowicie wyrażają prawa metody historycznej stosowanej do materii, ale zastosowanie tych równań oznacza doskonałą znajomość wszystkich danych. Ale najmniejsza część materii, którą możemy poddać eksperymentowi, składa się z milionów cząsteczek, z których żadna z nich nigdy nie staje się dla nas indywidualnie sensowna. Nie możemy zatem ustalić rzeczywistego ruchu żadnej z tych cząsteczek, dlatego jesteśmy zobowiązani do porzucenia ścisłej metody historycznej i przyjęcia statystycznej metody postępowania z dużymi grupami cząsteczek.

Wyjaśnia tę metodę statystyczną w kilku innych pracach. Na przykład: „W statystycznej metodzie badania nie śledzimy systemu podczas jego ruchu, ale skupiamy naszą uwagę na konkretnej fazie i sprawdzamy, czy system znajduje się w tej fazie, czy też nie, a także kiedy wchodzi w fazę a kiedy go opuszcza ”(Trans. Cambridge Philos. Soc. 12, 1879, ss. 547–570).

Jest jeszcze jeden piękny fragment Maxwella o „prawdopodobieństwie” (z listu do Campbella, 1850 r., Przedrukowanego w The Life of James Clerk Maxwell , s. 143):

faktyczna nauka logiki jest obecnie zaznajomiona tylko z rzeczami pewnymi, niemożliwymi lub całkowicie wątpliwymi, z których (na szczęście) nie musimy się opierać. Dlatego prawdziwą logiką tego świata jest Rachunek Prawdopodobieństwa, który uwzględnia wielkość prawdopodobieństwa (które jest lub które powinno być w umyśle rozsądnego człowieka).

Możemy więc powiedzieć:

- W statystykach „koncentrujemy naszą uwagę na małej liczbie sztucznych grup” lub ilościach; robimy coś w rodzaju katalogowania lub spisu.

- Prawdopodobnie obliczamy naszą niepewność dotyczącą niektórych zdarzeń lub wielkości.

Oba są różne i możemy robić jedno bez drugiego.

Na przykład, jeśli wykonamy pełny spis ludności całej narodu i policzymy dokładną liczbę osób należących do poszczególnych grup, takich jak wiek, płeć itd., Wykonujemy statystyki. Nie ma w tym żadnej niepewności - prawdopodobieństwa - ponieważ liczby, które znajdziemy, są dokładne i znane.

Z drugiej strony wyobraźmy sobie, jak ktoś przechodzi przed nami na ulicy, a my zastanawiamy się nad ich wiekiem. W tym przypadku nie jesteśmy pewni i używamy prawdopodobieństwa, ale nie ma w tym żadnych statystyk, ponieważ nie robimy jakiegoś spisu ani katalogu.

Ale te dwa mogą również wystąpić razem. Jeśli nie jesteśmy w stanie przeprowadzić pełnego spisu ludności, musimy zgadnąć, ile osób jest w określonych grupach wiekowych i płciowych. Dlatego używamy prawdopodobieństwa podczas tworzenia statystyk. Odwrotnie, możemy rozważyć dokładne dane statystyczne dotyczące wieku ludzi i na podstawie tych danych staramy się lepiej zgadywać o osobie przechodzącej przed nami. Dlatego używamy statystyk przy podejmowaniu decyzji o prawdopodobieństwie.

pglpm
źródło
Dziękuję za twój wkład. Chociaż ciekawe, nie zachowywać, co statystycy uwierzyć statystyka się ani z tym, co faktycznie robią, jak pokazano na stats.stackexchange.com/questions/140547/... .
whuber
To kwestia sporna. Znam profesjonalnych statystyk, którzy nie zgadzają się z definicją ASA (która jest strasznie niejasna) i zgadzają się z Maxwellem.
pglpm