Szacowanie wariancji normalnie ocenzurowanych próbek normalnych

11

I zwykle rozdzielone procesy z której uzyskać małe próbki ( n typowo 10-30), że chce użyć do oszacowania wariancji. Ale często próbki są tak blisko siebie, że nie możemy zmierzyć pojedynczych punktów w pobliżu centrum.

Mam niejasne zrozumienie, że powinniśmy być w stanie skonstruować wydajny estymator przy użyciu uporządkowanych próbek: np. Jeśli wiem, że próbka zawiera 20 punktów i że 10 jest skupionych w pobliżu centrum zbyt ciasno, aby mierzyć indywidualnie, ale mam dyskretne pomiary 5 na każdym ogonie, czy istnieje standardowe / formalne podejście do szacowania wariancji procesu, która optymalnie wykorzystuje takie próbki?

(Zauważ, że nie sądzę, że mogę po prostu zważyć średnią środkową. Na przykład możliwe jest ścisłe grupowanie 7 próbek, podczas gdy kolejne trzy są asymetrycznie pochylone na bok, ale wystarczająco blisko, nie możemy tego powiedzieć bez bardziej żmudnego pojedynczego próbkowania .)

Jeśli odpowiedź jest skomplikowana, wszelkie wskazówki dotyczące tego, co powinienem badać, byłyby mile widziane. Np. Czy jest to problem ze statystyką zamówień? Czy prawdopodobnie istnieje formalna odpowiedź, czy jest to problem obliczeniowy?

Zaktualizowany szczegół: Aplikacja analizuje cele strzelania. Pojedyncza próbka stanowi punkt uderzenia ( x, y ) pojedynczego strzału w cel. Podstawowy proces ma symetryczny dwuwymiarowy rozkład normalny, ale nie ma korelacji między osiami, więc jesteśmy w stanie traktować próbki { x } i { y } jako niezależne losowania z tego samego rozkładu normalnego. (Można również powiedzieć, że proces leżący u podstaw jest rozkładem Rayleigha, ale nie możemy zmierzyć próbki zmienności Rayleigha, ponieważ nie możemy być pewni współrzędnych „prawdziwego” centrum procesu, które dla małych n może być znacznie oddalony od centrum próbki ( , ).)ˉ yx¯y¯

Dostajemy cel i liczbę oddanych strzałów. Problem polega na tym, że dla n >> 3 precyzyjnych pistoletów zwykle strzela „nierówna dziura” otoczona wyraźnymi strzałami. Możemy obserwować szerokość otworu x i y , ale nie wiemy, gdzie w otworze uderzyły nie wyraźne strzały.

Oto kilka przykładów bardziej problematycznych celów:

[Przykładowy cel n = 10]

Próbka docelowa przy n = 100

(Oczywiście, w idealnym świecie zmieniamy / zmieniamy cele po każdym strzale, a następnie agregujemy próbki do analizy. Istnieje wiele przyczyn, które są często niepraktyczne, chociaż dzieje się tak, gdy jest to możliwe .)

Dalsze uwagi po wyjaśnieniach WHubera w komentarzach: Strzały wytwarzają otwory o jednolitej i znanej średnicy. Kiedy strzał znajduje się poza „postrzępioną grupą”, znamy promień pocisku, dzięki czemu możemy zmierzyć dokładny środek . W każdej „obdartej grupie” możemy rozpoznać pewną liczbę „kul” peryferyjnych i ponownie oznaczyć dokładny środek tych zewnętrznych strzałów w oparciu o znany promień pocisku. Są to pozostałe ujęcia „centralnie ocenzurowane”, o których wiemy, że uderzyły gdzieś we wnętrzu „obdartej grupy” (która zazwyczaj - i w razie potrzeby załóżmy - jeden na cel).xi

Uważam, że dla ułatwienia rozwiązania najłatwiej będzie zredukować to do zestawu jednowymiarowych próbek z normalnej, z centralnym przedziałem szerokości w > d , gdzie d jest średnicą pocisku, zawierającą c < n "ocenzurowanych" próbek.

mączka
źródło
(1) Czy rozkład normalny jest założeniem, czy masz na to dobre dowody? (2) Czy problem polega na tym, że nie można dokładnie policzyć danych w pobliżu centrum? (Byłoby to inne niż zwykłe znaczenie „cenzury”, to znaczy, że można policzyć te dane, ale wiesz tylko, że ich wartości mieszczą się w określonych odstępach czasu.)
whuber
@whuber: Tak, mamy zarówno fundamentalne, jak i empiryczne dowody, że proces jest zwykle rozłożony. I tak, znamy dokładną liczbę punktów w całej grupie i możemy zaobserwować przedział (y), w których znajduje się zbyt wiele próbek, aby określić poszczególne wartości.
footwet
Dzięki, to jest pomocne. Charakter niepewności jest jednak nadal niejasny, a dobry model może zmotywować dobre rozwiązanie. Czy mógłbyś podać ilustrację lub przykład lub przynajmniej bardziej szczegółowo opisać proces pomiaru?
whuber
@ whuber: Zaktualizowano. Jeśli to pomoże, będę również pracować nad publikowaniem linków do prawdziwych próbek.
footwet
Bardzo interesujący problem! Myślę, że potrzeba trochę twórczej myśli, aby znaleźć dobre rozwiązanie. Czy można uczciwie powiedzieć, że rozważasz środki każdego strzału, jako próbkę dwuwymiarową rozkładu normalnego ; chcesz oszacować ; ale wszystko, co możesz zaobserwować - z pewną niedokładnością - to (gdzie jest znanym wspólnym promieniem każdego pocisku, a jest kulą o promieniu wokół )? ( μ , σ 2 ) σ i B ( x i , r ) r B ( x , r ) r xxi,(μ,σ2)σiB(xi,r)rB(x,r)rx
whuber

Odpowiedzi:

2

To interesujący problem. Po pierwsze, nie założyłbym rozkładu normalnego. Wygląda na to, że tak naprawdę szukasz oszacowania dyspersji, które stosujesz w stosunku do wielu różnych strzelców, broni, amunicji lub czegokolwiek innego.

Spróbowałbym to odwrócić. Nie wiesz dokładnie, dokąd poszły wszystkie kule, chyba że zobaczysz 10 oddzielnych dołków (zakładając 10 strzałów). Ale wiesz, dokąd nie poszli. Można to wykorzystać do ograniczenia rozkładu przy założeniu statystyki bayesowskiej, jeśli chcesz zacząć od rozkładu.

Pomysł, który może być tutaj najlepszy, to przestać próbować robić to matematycznie i po prostu zrobić coś sensownego jak to. Wybierz cel i uruchom procedurę przetwarzania obrazu, aby oznaczyć ujęcie przez obszar, który może być niepołączony. Zmierz średnią i drugi moment tego i użyj ich jako estymatora. Jeśli chcesz pójść nieco dalej i spróbować go Gaussianizować, możesz uruchomić prosty eksperyment Monte Carlo, aby uzyskać współczynnik kalibracji.

Dave31415
źródło
Pozwól, że wyjaśnię trochę więcej. Powiedzmy, że masz 10 strzałów i jest 6 wyraźnych otworów, w których wiesz, gdzie trafiły kule. Najpierw weź te punkty i użyj ich, aby ograniczyć szerokość Gaussa. Zgodnie ze zwykłą rutyną ogranicza to sigma sigmy gaussowskiej (być może znaną dystrybucją. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415
Teraz, gdy to zrobisz, powinieneś rozważyć 4 pociski, które nie zrobiły nowych dziur. Ponieważ pociski są niezależne, to nowe prawdopodobieństwo (na sigmie Gaussa) można po prostu pomnożyć. Zasadniczo dla każdego z 4 pocisków chcesz pomnożyć przez prawdopodobieństwo, że nie zrobią nowej dziury.
Dave31415
Prostym sposobem na zrobienie tego za pomocą Monte Carlo jest narysowanie zestawu sigmy z ograniczonej dystrybucji i użycie tej sigmy, obliczenie szansy na nie zrobienie nowej dziury. Narysuj z tego wiele symulowanych ujęć i policz, jaka część nie robi nowych dziur. Można to następnie wykorzystać do aktualizacji prawdopodobieństwa. Następnie przejdź do następnego i zrób to samo. Teraz masz ostateczne prawdopodobieństwo.
Dave31415
Ostatni komentarz Z praktycznego punktu widzenia oszacowanie sigmy nie powinno tak bardzo wpływać na to, dokąd trafiły niewidzialne pociski, o ile zakładamy, że przeszły one przez poprzednie dziury. Będzie to głównie ograniczone przez te, które możesz zobaczyć, które definiują krawędź. To dlatego, że szansa, że ​​kula dwukrotnie przejdzie przez dziurę daleko od centrum, jest bardzo mała. Więc nawet prymitywne Monte Carlo zbliży Cię do optymalnego oszacowania.
Dave31415
Jeśli nie zapewnimy normalnego (lub innego) rozkładu, wydaje się mało prawdopodobne, abyśmy mogli powiedzieć coś więcej niż ustalić górną lub dolną granicę tego, co dzieje się w regionie ocenzurowanym. W przypadku 1-wymiarowym, w którym mamy n ujęć ocenzurowanych, dolną granicą wariancji jest założenie, że wszystkie uderzają w ten sam punkt wewnętrzny najbliższy średniej i (zakładając, że średnia jest wyśrodkowana w środku) górną granicą jest zakładamy, że ocenzurowane punkty są równo rozmieszczone na obrzeżach wnętrza. Ale jeśli założymy, że podstawowy proces jest normalny, wydaje się, że powinniśmy być w stanie zrobić coś lepszego.
footwet
0

Z innego punktu obserwacyjnego można to zobaczyć w świetle statystyki przestrzennej, która stworzyła asortyment wskaźników, z których wiele umieszczono w skrzynkach narzędziowych (patrz na przykład https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) faktycznie ma dobrą stronę wprowadzającą omawiającą takie pojęcia, jak miary przestrzennej tendencji centralnej i dyspersji przestrzennej. Cytując Wikipedię na ten drugi temat:

„W większości zastosowań dyspersję przestrzenną należy określić ilościowo w sposób niezmienny dla obrotów i odbić. Kilka prostych miar dyspersji przestrzennej dla zbioru punktów można zdefiniować za pomocą macierzy kowariancji współrzędnych punktów. Ślad, wyznacznik , a największą wartość własną macierzy kowariancji można wykorzystać jako miary dyspersji przestrzennej. Miarą dyspersji przestrzennej, która nie jest oparta na macierzy kowariancji, jest średnia odległość między najbliższymi sąsiadami. [1] "

Powiązane pojęcia obejmują miary jednorodności przestrzennej, funkcje K i L Ripleya, a być może najbardziej istotne dla analizy skupień pocisków, test Cuzicka-Edwardsa dla grupowania podpopulacji w populacjach skupionych. Ten ostatni test opiera się na porównaniu (z wykorzystaniem analiz „najbliższego sąsiada” do tabelarycznego opracowania statystyk) z populacją kontrolną, która w obecnym kontekście mogłaby być oparta na rzeczywistych zaobserwowanych celach sklasyfikowanych jako nie wykazujące grupowania lub na podstawie symulacji teoretycznej z powiedzmy rozkład Rayleigha.

AJKOER
źródło