I zwykle rozdzielone procesy z której uzyskać małe próbki ( n typowo 10-30), że chce użyć do oszacowania wariancji. Ale często próbki są tak blisko siebie, że nie możemy zmierzyć pojedynczych punktów w pobliżu centrum.
Mam niejasne zrozumienie, że powinniśmy być w stanie skonstruować wydajny estymator przy użyciu uporządkowanych próbek: np. Jeśli wiem, że próbka zawiera 20 punktów i że 10 jest skupionych w pobliżu centrum zbyt ciasno, aby mierzyć indywidualnie, ale mam dyskretne pomiary 5 na każdym ogonie, czy istnieje standardowe / formalne podejście do szacowania wariancji procesu, która optymalnie wykorzystuje takie próbki?
(Zauważ, że nie sądzę, że mogę po prostu zważyć średnią środkową. Na przykład możliwe jest ścisłe grupowanie 7 próbek, podczas gdy kolejne trzy są asymetrycznie pochylone na bok, ale wystarczająco blisko, nie możemy tego powiedzieć bez bardziej żmudnego pojedynczego próbkowania .)
Jeśli odpowiedź jest skomplikowana, wszelkie wskazówki dotyczące tego, co powinienem badać, byłyby mile widziane. Np. Czy jest to problem ze statystyką zamówień? Czy prawdopodobnie istnieje formalna odpowiedź, czy jest to problem obliczeniowy?
Zaktualizowany szczegół: Aplikacja analizuje cele strzelania. Pojedyncza próbka stanowi punkt uderzenia ( x, y ) pojedynczego strzału w cel. Podstawowy proces ma symetryczny dwuwymiarowy rozkład normalny, ale nie ma korelacji między osiami, więc jesteśmy w stanie traktować próbki { x } i { y } jako niezależne losowania z tego samego rozkładu normalnego. (Można również powiedzieć, że proces leżący u podstaw jest rozkładem Rayleigha, ale nie możemy zmierzyć próbki zmienności Rayleigha, ponieważ nie możemy być pewni współrzędnych „prawdziwego” centrum procesu, które dla małych n może być znacznie oddalony od centrum próbki ( , ).)ˉ y
Dostajemy cel i liczbę oddanych strzałów. Problem polega na tym, że dla n >> 3 precyzyjnych pistoletów zwykle strzela „nierówna dziura” otoczona wyraźnymi strzałami. Możemy obserwować szerokość otworu x i y , ale nie wiemy, gdzie w otworze uderzyły nie wyraźne strzały.
Oto kilka przykładów bardziej problematycznych celów:
(Oczywiście, w idealnym świecie zmieniamy / zmieniamy cele po każdym strzale, a następnie agregujemy próbki do analizy. Istnieje wiele przyczyn, które są często niepraktyczne, chociaż dzieje się tak, gdy jest to możliwe .)
Dalsze uwagi po wyjaśnieniach WHubera w komentarzach: Strzały wytwarzają otwory o jednolitej i znanej średnicy. Kiedy strzał znajduje się poza „postrzępioną grupą”, znamy promień pocisku, dzięki czemu możemy zmierzyć dokładny środek . W każdej „obdartej grupie” możemy rozpoznać pewną liczbę „kul” peryferyjnych i ponownie oznaczyć dokładny środek tych zewnętrznych strzałów w oparciu o znany promień pocisku. Są to pozostałe ujęcia „centralnie ocenzurowane”, o których wiemy, że uderzyły gdzieś we wnętrzu „obdartej grupy” (która zazwyczaj - i w razie potrzeby załóżmy - jeden na cel).
Uważam, że dla ułatwienia rozwiązania najłatwiej będzie zredukować to do zestawu jednowymiarowych próbek z normalnej, z centralnym przedziałem szerokości w > d , gdzie d jest średnicą pocisku, zawierającą c < n "ocenzurowanych" próbek.
Odpowiedzi:
To interesujący problem. Po pierwsze, nie założyłbym rozkładu normalnego. Wygląda na to, że tak naprawdę szukasz oszacowania dyspersji, które stosujesz w stosunku do wielu różnych strzelców, broni, amunicji lub czegokolwiek innego.
Spróbowałbym to odwrócić. Nie wiesz dokładnie, dokąd poszły wszystkie kule, chyba że zobaczysz 10 oddzielnych dołków (zakładając 10 strzałów). Ale wiesz, dokąd nie poszli. Można to wykorzystać do ograniczenia rozkładu przy założeniu statystyki bayesowskiej, jeśli chcesz zacząć od rozkładu.
Pomysł, który może być tutaj najlepszy, to przestać próbować robić to matematycznie i po prostu zrobić coś sensownego jak to. Wybierz cel i uruchom procedurę przetwarzania obrazu, aby oznaczyć ujęcie przez obszar, który może być niepołączony. Zmierz średnią i drugi moment tego i użyj ich jako estymatora. Jeśli chcesz pójść nieco dalej i spróbować go Gaussianizować, możesz uruchomić prosty eksperyment Monte Carlo, aby uzyskać współczynnik kalibracji.
źródło
Z innego punktu obserwacyjnego można to zobaczyć w świetle statystyki przestrzennej, która stworzyła asortyment wskaźników, z których wiele umieszczono w skrzynkach narzędziowych (patrz na przykład https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) faktycznie ma dobrą stronę wprowadzającą omawiającą takie pojęcia, jak miary przestrzennej tendencji centralnej i dyspersji przestrzennej. Cytując Wikipedię na ten drugi temat:
„W większości zastosowań dyspersję przestrzenną należy określić ilościowo w sposób niezmienny dla obrotów i odbić. Kilka prostych miar dyspersji przestrzennej dla zbioru punktów można zdefiniować za pomocą macierzy kowariancji współrzędnych punktów. Ślad, wyznacznik , a największą wartość własną macierzy kowariancji można wykorzystać jako miary dyspersji przestrzennej. Miarą dyspersji przestrzennej, która nie jest oparta na macierzy kowariancji, jest średnia odległość między najbliższymi sąsiadami. [1] "
Powiązane pojęcia obejmują miary jednorodności przestrzennej, funkcje K i L Ripleya, a być może najbardziej istotne dla analizy skupień pocisków, test Cuzicka-Edwardsa dla grupowania podpopulacji w populacjach skupionych. Ten ostatni test opiera się na porównaniu (z wykorzystaniem analiz „najbliższego sąsiada” do tabelarycznego opracowania statystyk) z populacją kontrolną, która w obecnym kontekście mogłaby być oparta na rzeczywistych zaobserwowanych celach sklasyfikowanych jako nie wykazujące grupowania lub na podstawie symulacji teoretycznej z powiedzmy rozkład Rayleigha.
źródło