Dopasowywanie rozkładu do danych przestrzennych

10

Cross wysyłając moje pytanie z matematyki, aby znaleźć pomoc dotyczącą statystyk.

Badam fizyczny proces generujący dane, które ładnie rzutują na dwa wymiary o wartościach nieujemnych. Każdy proces ma (rzutowaną) ścieżkę punktów - y - patrz obrazek poniżej.xy

Przykładowe ścieżki są niebieskie, kłopotliwy typ ścieżki został narysowany ręcznie na zielono, a obszar zainteresowania na czerwono: trasy i region, którego dotyczy problem

Każda ścieżka jest wynikiem niezależnego eksperymentu. Przez kilka lat przeprowadzono dwadzieścia milionów eksperymentów, ale tylko dwa tysiące z nich wykazują funkcję, którą przedstawiamy jako ścieżkę. Zajmujemy się tylko eksperymentami, które generują ślad, więc nasz zestaw danych to (w przybliżeniu) dwa tysiące śladów.

1104

Jak obliczyć prawdopodobieństwo wkroczenia dowolnej ścieżki do regionu, którego dotyczy problem?

Nie jest możliwe przeprowadzenie eksperymentów wystarczająco szybko, aby zobaczyć, jak często generowane są ścieżki, które wchodzą w obszar zainteresowania, dlatego musimy ekstrapolować z dostępnych danych.

xy200

Dopasowaliśmy minimalną odległość od każdego toru do danego regionu, ale nie jesteśmy przekonani, że daje to uzasadniony wynik.

1) Czy istnieje znany sposób dopasowania dystrybucji do tego typu danych w celu ekstrapolacji?

-lub-

2) Czy istnieje oczywisty sposób wykorzystania tych danych do stworzenia modelu do generowania śladów? Np. Użyj analizy głównego komponentu na ścieżkach jako punktów na dużej przestrzeni, a następnie dopasuj rozkład (Pearson?) Do ścieżek rzutowanych na te komponenty.

Jeff Snider
źródło
1
Nie mogę udzielać więcej informacji na temat konkretnego procesu, ale zaktualizuję pytanie, aby mówić o tym, w jaki sposób gromadzone są dane.
Jeff Snider
1
Zaktualizowałem język, aby być bardziej konkretnym. Wyobraźmy sobie, że rzucamy kamykami w otwarte okno na najwyższym piętrze i zależy nam tylko na tym, jak kamyki, które przechodzą przez okno odbijają się na podłodze w środku. Rzuciliśmy miliony kamyków, a około 2000 przeszło przez okno. Kiedy kamyk przechodzi przez okno, narysujemy ślad jego postępu na podłodze. Biorąc pod uwagę, że kamyk przechodzi przez okno, chcemy oszacować prawdopodobieństwo, że przejdzie on przez dany region.
Jeff Snider

Odpowiedzi:

1

Wygląda na to, że chcesz symulować formowanie ścieżek, a następnie przeprowadzić symulację Monte Carlo, aby zobaczyć, ile ścieżek wpada w czerwony obszar. Aby to zrobić, najpierw przekształciłem linie w dwie funkcje, jedna podająca kierunek, a druga odległość od jednego punktu do drugiego na tej ścieżce. Teraz możesz przestudiować rozkłady prawdopodobieństwa związane z tymi dwiema funkcjami. Na przykład może się okazać, że przebyty dystans jest zgodny z określonym rozkładem (uważaj, aby rozkład nie zmieniał się w czasie). Jeśli którakolwiek zmienna zmienia się w czasie, musisz zagłębić się w analizę szeregów czasowych (nie moje pole, przepraszam).

Inną myślą, która przychodzi na myśl, jest to, że ponieważ kierunek ruchu w xy zmienia się stopniowo na większości ścieżek, lepiej lepiej zbadać zmianę kierunku w funkcji czasu w przypadku ścieżek.

Konieczne będzie również oszacowanie prawdopodobieństwa, że ​​ścieżka rozpocznie się od określonej współrzędnej xy w danym kierunku. Możesz rozważyć użycie oszacowania gęstości jądra w celu wygładzenia wynikowego pliku PDF lub, jeśli wydaje się on zgodny z rozkładem, dla którego istnieje model analityczny, można zastosować maksymalizację oczekiwań, aby dopasować ten rozkład do danych.

Symulacja Monte Carlo rysowałaby następnie losowe próbki z tych rozkładów, aby symulować kształty torów. Następnie musisz zasymulować dużą liczbę ścieżek i zobaczyć, jak często te ścieżki przechodzą przez czerwony region. Mogą to być tysiące lub miliony utworów, musisz eksperymentować, aby zobaczyć, kiedy rozkład przestaje się zmieniać wraz z dodawaniem kolejnych utworów.

wióry
źródło