Oryginalne pytanie (7/25/14): Czy ten cytat z mediów informacyjnych ma sens, czy jest lepszy statystyczny sposób patrzenia na tempo ostatnich wypadków lotniczych?
Jednak Barnett zwraca również uwagę na teorię rozkładu Poissona, co oznacza, że krótkie przerwy między wypadkami są w rzeczywistości bardziej prawdopodobne niż długie.
„Załóżmy, że zdarza się średnio jeden śmiertelny wypadek rocznie, co oznacza, że prawdopodobieństwo wypadku w danym dniu wynosi jeden na 365”, mówi Barnett. „Jeśli nastąpi awaria w dniu 1 sierpnia, szansa, że następna awaria nastąpi następnego dnia 2 sierpnia, wynosi 1/365. Ale szansa, że następna awaria nastąpi 3 sierpnia, to (364/365) x (1/365) , ponieważ następna awaria nastąpi 3 sierpnia tylko wtedy, gdy nie nastąpi awaria 2 sierpnia. ”
„Wydaje się to sprzeczne z intuicją, ale wniosek bezwzględnie wynika z praw prawdopodobieństwa” - mówi Barnett.
Źródło: http://www.bbc.com/news/magazine-28481060
Wyjaśnienie (27.07.14): To, co jest sprzeczne z intuicją (dla mnie), mówi, że rzadkie zdarzenia zwykle zdarzają się w krótkim czasie. Intuicyjnie pomyślałbym, że rzadkie zdarzenia nie pojawią się w krótkim czasie. Czy ktoś może wskazać mi teoretyczny lub empiryczny oczekiwany rozkład czasu między zdarzeniami przy założeniu rozkładu Poissona? (To znaczy histogram, w którym oś y oznacza częstotliwość lub prawdopodobieństwo, a oś x to czas między 2 kolejnymi wystąpieniami pogrupowanymi w dni, tygodnie, miesiące lub lata lub podobne.) Dzięki.
Wyjaśnienie (7/28/14): Nagłówek sugeruje, że istnieje większe prawdopodobieństwo wystąpienia skupisk wypadków niż wypadków o dużej rozpiętości. Zoperacjonalizujmy to. Powiedzmy, że klaster to 3 wypadki lotnicze, a krótki okres to 3 miesiące, a długi to 3 lata. Nielogiczne wydaje się sądzenie, że istnieje większe prawdopodobieństwo, że 3 wypadki wystąpią w ciągu 3 miesięcy niż w ciągu 3 lat. Nawet jeśli weźmiemy pod uwagę pierwszy wypadek, nielogiczne jest przypuszczać, że kolejne 2 wypadki nastąpią w ciągu najbliższych 3 miesięcy, w porównaniu do następnych 3 lat. Jeśli to prawda, nagłówek mediów informacyjnych wprowadza w błąd i jest niepoprawny. Czy coś brakuje?
źródło
Odpowiedzi:
Podsumowanie: Pierwsze zdanie w cytowanym akapicie BBC jest niechlujne i mylące.
Mimo że poprzednie odpowiedzi i komentarze stanowiły już doskonałą dyskusję, uważam, że odpowiedź na główne pytanie nie została zadowalająca.
Więc załóżmy, że prawdopodobieństwo katastrofy lotniczej w danym dniu jest i że wypadki są niezależne od siebie. Załóżmy dalej, że jeden samolot rozbił się 1 stycznia. Kiedy miałby nastąpić następny samolot?p = 1 / 365
Cóż, wykonajmy prostą symulację: każdego dnia przez następne trzy lata losowo zdecyduję, czy inny samolot rozbił się z prawdopodobieństwem i zanotuję dzień następnej katastrofy; Powtórzę tę procedurę 100p razy. Oto wynikowy histogram:100000
Oto kolejny histogram, który naprawdę pokazuje ten punkt. Jest to po prostu suma poprzedniego histogramu dla kilku nieprzecinających się okresów:
źródło
Reporter mówi, że przypadkowe wystąpienie katastrofy lotniczej można modelować jako proces Poissona - sytuacja, w której prawdopodobieństwo wystąpienia zdarzenia w pewnym (małym) przedziale jest proporcjonalne do długości tego przedziału i gdzie każde wystąpienie w Niezależny od wszystkich innych.
Czy to rozsądny model dla opisanego scenariusza?
Prawdopodobnie.
Jasne, te zdarzenia mogą nie być w 100% niezależne, ponieważ inni piloci prawdopodobnie zmienią swoje zachowanie (choćby nieznacznie) po wypadku. [Nie wiem - może kilku pilotów ćwiczy dodatkowe szkolenie na symulatorze lub coś w tym rodzaju]. Niemniej jednak założenie o niepodległości jest nadal całkowicie uzasadnione.
A co z grupami katastrof lotniczych?
Tak. Biorąc pod uwagę proces Poissona (lub nawet jakiś inny proces losowy), to byłoby oczekiwać, aby zobaczyć skupiska zjawisk.
W rzeczywistości, jak opisano w Oxford Dictionary of Statistics w swoim wpisie dla Poissona Process (który jest „matematycznym opisem losowości”):
Na przykład sprawdź ten prosty fragment kodu R :
który produkuje:
Chociaż wiem że jest to działka losowych punktów, to coś w rodzaju wygląd jak istnieją pewne non bity -Random do niego - szczególnie w niektórych częściach wykresu istnieją skupiska punktów, podczas gdy inne części są szeroko otwarte. Jest to ten sam rodzaj zachowania, który artykuł próbuje opisać (tylko w przypadku danych szeregów czasowych, a nie przestrzenny) danych ).
AKTUALIZACJA:
@JoelW .: Powiedzmy na przykład, że prawdopodobieństwo katastrofy samolotu jutro (lub dowolnego dnia w tej sprawie) wynosi „ p ” (i, powiedzmy, „ p ” to mniej więcej 1 na sto).
Powodem, dla którego następna katastrofa samolotowa jest bardziej prawdopodobna jutro, niż częściej niż dokładnie za rok (tj. 26 lipca 2015 r. ), Jest to, że prawdopodobieństwo, że następna katastrofa nastąpi dokładnie za rok, wynosi:
Ma sens?
Ostatecznie, myślę, że powodem te rzeczy są sprzeczne z intuicją, ponieważ jest zazwyczaj, gdy myślimy o wyrażenie jak:
"The odds of a plane crash in one month compared with the odds of one happening tomorrow"
. Oczywiście nie bierzemy pod uwagę 24-godzinnego okresu, który rozpoczyna się dokładnie za miesiąc. Zamiast tego my (lub przynajmniej ja) myślimy o tym bardziej, cóż, elastycznie . Więc więcej tak:a month ± a week
. To i fakt, że zapominamy o uwzględnieniu prawdopodobieństwa awarii, która nie zdarza się w międzyczasie ... (Ale znowu, może to tylko ja ...).Uff!
Dodatkowe zasoby:
źródło
Jeśli liczba wypadków samolotu jest rozkładem Poissona (jak wydaje się on twierdzić), czas między wypadkami ma rozkład wykładniczy. Pdf rozkładu wykładniczego jest monotoniczną funkcją malejącą czasu. Dlatego wcześniejsze awarie są bardziej prawdopodobne niż późniejsze.
źródło
Inne odpowiedzi dotyczyły już niezależności zdarzenia łączą się w klaster. (Czytanie chaosu Gleicka, wszystkie lata temu otworzyło mi oczy na ten pomysł).
Ale w rzeczywistości istnieją mocne dowody, że katastrofy lotnicze nie są niezależnymi zdarzeniami. Wpływ Cialdiniego ma bardzo dobry rozdział na ten temat (wspomniany tutaj również , który zawiera kilka linków do danych; znalazłem fragment tej części książki ). Oczywiście jest to bardzo kontrowersyjne: w gruncie rzeczy mówi się, że im bardziej nagłośniona jest katastrofa lotnicza, tym bardziej prawdopodobne jest, że wpłynie ona na pilota (świadomie lub nieświadomie), aby rozbił swój samolot. Ale psychologiczne wyjaśnienia leżące u podstaw tej hipotezy wydają się wiarygodne, a dane zdają się to potwierdzać.
(W komentarzach mile widziane są linki do statystycznych badań obalających.)
źródło