Czy istnieje jakaś standardowa procedura (taka, że można ją przytoczyć jako odniesienie) do wybierania podzbioru punktów danych z większej puli o największej korelacji (tylko w dwóch wymiarach)?
Załóżmy na przykład, że masz 100 punktów danych. Potrzebujesz podzbioru 40 punktów o najsilniejszej możliwej korelacji wzdłuż wymiarów X i Y.
Zdaję sobie sprawę, że pisanie kodu, aby to zrobić, byłoby stosunkowo proste, ale zastanawiam się, czy jest na to jakieś źródło?
Odpowiedzi:
Powiedziałbym, że twoja metoda pasuje do ogólnej kategorii opisanej w tym artykule na Wikipedii, która zawiera także inne odniesienia, jeśli potrzebujesz czegoś więcej niż tylko wikipedia. Miałyby również zastosowanie niektóre linki w tym artykule.
Inne warunki, które mogą mieć zastosowanie (jeśli chcesz przeprowadzić dalsze wyszukiwanie), to „Pogłębianie danych” i „Torturowanie danych, dopóki się nie przyzna”.
Zauważ, że zawsze możesz uzyskać korelację 1, jeśli wybierzesz tylko 2 punkty, które nie mają identycznych wartości x lub y. Kilka lat temu w magazynie Chance pojawił się artykuł, który pokazał, że kiedy masz zmienną xiy zasadniczo bez korelacji, możesz znaleźć sposób na binowanie x i uśrednienie y w przedziałach, aby pokazać wzrost lub spadek ( Szansa 2006, Objawienia wizualne: znalezienie tego, czego nie ma przez niefortunne grupowanie wyników: efekt Mendla, s. 49–52). Również przy pełnym zestawie danych pokazującym umiarkowaną korelację dodatnią można wybrać podzbiór wykazujący korelację ujemną. Biorąc to pod uwagę, nawet jeśli masz uzasadniony powód do zrobienia tego, co proponujesz, dajesz sceptykom wiele argumentów, które można wykorzystać przeciwko wszelkim wyciągniętym przez ciebie wnioskom.
źródło
Algorytm RANSAC brzmi jak chcesz. Zasadniczo zakłada, że twoje dane składają się z kombinacji wartości wewnętrznych i zewnętrznych, i próbuje zidentyfikować wartości wewnętrzne poprzez wielokrotne próbkowanie podzbiorów danych, dopasowanie do niego modelu, a następnie próbę dopasowania każdego innego punktu danych do modelu. Oto artykuł na ten temat w Wikipedii .
W twoim przypadku możesz po prostu powtarzać algorytm, jednocześnie zapisując aktualny najlepszy model, który pasuje do co najmniej 40 punktów, więc nie zagwarantuje ci absolutnie najlepszej korelacji, ale powinien się zbliżyć.
źródło
Trudno mi wyobrazić sobie kontekst, w którym byłaby to dobra praktyka, ale załóżmy przez chwilę, że rzeczywiście masz dobry powód, aby to zrobić.
Algorytm brutalnej siły mógłby wyglądać mniej więcej tak:
Obliczasz wszystkie możliwe podpróbki z ogólnej próbki N. Większość pakietów statystycznych ma funkcje obliczania kombinacji bez zamian, które zrobią to za Ciebie.
Szacujesz korelację między xiy dla każdej z podpróbek i wybierasz maksimum z tego zestawu.
Właśnie zobaczyłem komentarz oryginalnego plakatu dotyczący odniesienia do tej procedury. Nie jestem pewien, czy ktoś ma konkretną nazwę dla tej procedury, ponieważ generujesz po prostu empiryczny rozkład wszystkich możliwych korelacji w zbiorze danych i wybierasz maksimum. Podobne podejścia są stosowane podczas ładowania systemu, ale w takim przypadku jesteś zainteresowany zmiennością empiryczną, NIE używaj ich do wybierania konkretnej podpróbki związanej z maks.
źródło