Ze statystycznej randonessy Wikipedii :
Losowość globalna i losowość lokalna są różne. Większość filozoficznych koncepcji losowości ma charakter globalny, ponieważ opierają się na założeniu, że „na dłuższą metę” sekwencja wygląda naprawdę losowo, nawet jeśli pewne podsekwencje nie wyglądałyby losowo. Na przykład w „prawdziwie” losowej sekwencji liczb o wystarczającej długości prawdopodobne jest, że będą długie sekwencje składające się wyłącznie z zer, choć ogólnie sekwencja może być losowa. Lokalna losowość odnosi się do idei, że mogą istnieć minimalne długości sekwencji, w których aproksymowane są rozkłady losowe.Długie odcinki tych samych cyfr, nawet te generowane przez „prawdziwie” losowe procesy, zmniejszyłyby „lokalną losowość” próbki (może być lokalnie losowa dla sekwencji 10 000 cyfr; pobieranie sekwencji mniejszych niż 1000 może nie wyglądać losowo w ogóle, na przykład).
W ten sposób sekwencja wykazująca wzór nie jest statystycznie losowa. Zgodnie z zasadami teorii Ramseya, wystarczająco duże obiekty muszą koniecznie zawierać daną podkonstrukcję („całkowite zaburzenie jest niemożliwe”).
Nie do końca rozumiem znaczenie dwóch zdań pogrubionych.
Czy pierwsze zdanie oznacza, że coś powoduje, że sekwencja jest lokalna losowa na dłuższej długości, a nie lokalna losowa na krótszej długości?
Jak działa przykład w nawiasie?
- Czy zdanie drugie oznacza, że nie można udowodnić, że sekwencja wykazująca wzór nie jest statystycznie losowa? Dlaczego?
Dzięki
Odpowiedzi:
Koncepcję tę można zilustrować za pomocą kodu wykonywalnego. Zaczynamy (in
R
) od użycia dobrego generatora liczb pseudolosowych do utworzenia sekwencji 10 000 zer i jedynek:To przechodzi kilka podstawowych testów liczb losowych. Na przykład, test t w celu porównania średniej do ma wartość p 40,091 / 2 40.09 %, co pozwala nam przyjąć hipotezę, że zer i jedynek są jednakowo prawdopodobne.
Z tych liczb przystępujemy do wydobywania podsekwencji kolejnych wartości, zaczynając od 5081. wartości:1000
Jeśli mają wyglądać losowo, powinny również przejść te same testy liczb losowych. Na przykład sprawdźmy, czy ich średnia wynosi 1/2:
Niska wartość p (mniej niż 1%), silnie sugeruje, że średnia jest znacznie większa niż . Rzeczywiście skumulowana suma tego podsekwencji wykazuje silny trend wzrostowy:1/2
To nie jest przypadkowe zachowanie!
Porównanie oryginalnej sekwencji (wykreślonej jako suma skumulowana) z tą podsekwencją ujawnia, co się dzieje:
Jak wykazały te proste analizy, żaden test nie może „udowodnić”, że sekwencja wydaje się losowa. Wszystko, co możemy zrobić, to sprawdzenie, czy sekwencje odbiega na tyle od zachowań oczekiwanych od przypadkowych sekwencji zaoferować dowodów, że są one nie przypadkowe. Tak działają akumulatory testów liczb losowych : szukają wzorców, których pojawienie się w losowych sekwencjach liczbowych jest bardzo mało prawdopodobne. Co jakiś czas powodują, że dochodzimy do wniosku, że prawdziwie losowa sekwencja liczb nie wydaje się losowa: odrzucimy ją, próbując czegoś innego.
Jednak na dłuższą metę - tak jak wszyscy jesteśmy martwi - każdy generator liczb losowych wygeneruje każdą możliwą sekwencję 1000 cyfr i zrobi to nieskończenie wiele razy. To, co ratuje nas od logicznego rozterki, polega na tym, że musielibyśmy czekać strasznie długo na pojawienie się tak pozornej aberracji.
źródło
W tym fragmencie zastosowano pojęcia „lokalna losowość” i „globalna losowość”, aby rozróżnić, co może się zdarzyć przy skończonej liczbie próbek zmiennej losowej, a rozkładem prawdopodobieństwa lub oczekiwaniami zmiennej losowej.
Nic nowego tutaj.
Wydaje się jednak, że ten fragment wydaje się oczywisty, że większyn , tym bardziej prawdopodobne jest, że zachowanie wygląda „lokalnie losowo”, a „lokalnie losowo” zdefiniowano (niepoprawnie) jako wykazujące wzorce zbliżone do średniej ( w tym przykładzie).
Dlatego nie spaliłbym zbyt wielu komórek mózgowych myśląc o tym fragmencie. Nie jest to matematycznie tak precyzyjne i faktycznie wprowadza w błąd co do natury losowości.
Edytuj na podstawie komentarza: @kjetilbhalvorsen +1 do komentarza dotyczącego wiedzy historycznej. Jednak nadal uważam, że wartość tych warunków jest ograniczona i wprowadza w błąd. Tabele, które opisujesz, wydają się wprowadzać w błąd, że małe próbki, które mają na przykład próbkę, są dalekie od rzeczywistej oczekiwanej wartości lub być może nieprawdopodobną, ale z pewnością możliwą długą sekwencją powtarzanych zer (w moim przykładzie Bernoulliego), w jakiś sposób wykazują mniej przypadkowości (mówiąc, że nie wykazują fałszywej „lokalnej losowości”). Nie mogę wymyślić nic bardziej mylącego dla początkującego statystyki!
źródło
Myślę, że autorzy postu na Wikipedii źle interpretują przypadkowość. Tak, mogą istnieć odcinki, które wydają się nie być losowe, ale jeśli proces, który utworzył sekwencję, jest naprawdę losowy, to musi być wynikiem. Jeśli pewne sekwencje wydają się nieprzypadkowe, jest to błędne postrzeganie czytelnika (tj. Ludzie są zaprojektowani do znajdowania wzorców). Nasza zdolność widzenia Wielkiego Wozu, Oriona itp. Na nocnym niebie nie świadczy o tym, że wzory gwiazd nie są przypadkowe. Zgadzam się, że losowość często wydaje się nielosowa. Jeśli proces generuje prawdziwie nielosowe wzory dla krótkich sekwencji, nie jest to proces losowy.
Nie sądzę, że proces zmienia się przy różnych wielkościach próbek. Zwiększasz wielkość próby, zwiększasz prawdopodobieństwo, że zobaczymy losową sekwencję, która wydaje się nam nielosowa. Jeśli istnieje 10% szansa, że zobaczymy wzorzec w 20 losowych obserwacjach, zwiększenie całkowitej liczby obserwacji do 10000 zwiększyłoby prawdopodobieństwo, że gdzieś zobaczymy nielosowość.
źródło