Zmierzyliśmy dwie zmienne, a wykres rozrzutu wydaje się sugerować wiele modeli „liniowych”. Czy istnieje sposób, aby spróbować destylować te modele? Identyfikacja innych zmiennych niezależnych okazała się trudna.
Obie zmienne są mocno pochylone w lewo (w kierunku małych liczb), jest to oczekiwany rozkład w naszej domenie. Intensywność kropki reprezentuje ilość punktów danych (w skali ) w tym .
Alternatywnie, czy istnieje sposób na zgrupowanie punktów?
W naszym polu twierdzi się, że te dwie zmienne korelują liniowo. Staramy się zrozumieć / wyjaśnić, dlaczego w naszych danych tak nie jest.
(Uwaga, mamy 17 milionów punktów danych)
aktualizacja: dziękuję za wszystkie odpowiedzi, oto kilka wymaganych wyjaśnień:
- Obie zmienne są tylko liczbami całkowitymi, co wyjaśnia niektóre wzorce w logu scatterplot.
- Na szczęście minimalna wartość obu zmiennych z definicji wynosi 1.
- 7 milionów punktów znajduje się w („wyjaśnione” przez lewy skośność danych)
Oto wymagane wykresy:
log scatterplot:
(puste są spowodowane wartościami całkowitymi)
log-log polarny:
Histogram współczynnika:
Częstotliwość jest w skali logarytmicznej, ponieważ bara to 7 milionów punktów i ukryłaby pozostałe słupki.
źródło
Odpowiedzi:
Możesz mieć artefakty wynikające z ograniczeń tego, co jest możliwe fizycznie lub co jest rejestrowane (w najprostszym przypadku, tylko liczby całkowite). Całkowicie anonimowe i nie sugerują żadnych pewnych przypuszczeń na temat tego, jak to powstaje, ale wygląda na to, że niektóre są faworyzowane i na pewno spojrzałbym na rozkład tego stosunku. Ponadto, jeśli tak, z mojego doświadczenia wynika, że nie warto szukać osobnych modeli, chyba że naprawdę miksujesz zupełnie różne sytuacje. (Dla „fizycznie” czytaj „biologicznie” lub cokolwiek przysłówek ma sens).Y X Y/X
Im dłużej na to patrzę, tym bardziej wydaje mi się, że linie takie jak lub są widoczne dla liczby całkowitej , ponieważ same wartości są liczbami całkowitymi.X/k kX k
Inną, ale prawdopodobnie powiązaną kwestią jest to, że dane te wymagają transformacji. Jeśli wszystkie są dodatnie, logarytmy są wskazane. Obawiam się, że masz zera. W takim przypadku dyskusja jest możliwa. Na przykład na wykresie można odgadnąć linię o wartości . Jeśli są zera, niektóre przekleństwa na lub pierwiastek kostki powinny pomóc. Wszystko, co pomaga lepiej widzieć wzory, jest obronne.Y=0 log(Y+constant)
Terminologia: skośność w statystykach jest opisana w odniesieniu do bardziej rozciągniętego ogona. Możesz traktować tę terminologię jako wsteczną. Tutaj obie zmienne są wypaczone do wysokich wartości lub dodatnie lub prawe.
AKTUALIZACJA: Dziękujemy za dodatkowe wykresy, które są najbardziej pomocne. Prawie wszystkie domysły wydają się potwierdzone. (Dolna linia, że tak powiem, to , a nie ). Paski są artefaktami lub efektami wtórnymi używania liczb całkowitych, co może być jedynym lub przynajmniej najbardziej praktycznym sposobem pomiaru tego, co mierzą (o czym pytanie pozostaje dyskretne). Dziennik i inne wykresy ujawniają dyskrecję. Pomimo dyskrecji dyskrecja jest potwierdzona. Istnieją wyraźne tryby (piki w rozkładzie) dla stosunków 1/4, 1/2, 1/1 i 2/1.Y=1 Y=0
Tak jak poprzednio, nie zalecałbym modelowania różnych pasków inaczej bez naukowego powodu, aby je rozróżniać lub traktować osobno. Powinieneś uśrednić to, co masz. (Mogą istnieć znane metody z tego rodzaju danymi w celu tłumienia dyskrecji. Jeśli ludzie w Twojej dziedzinie rutynowo mierzą miliony punktów dla każdego wykresu, trudno uwierzyć, że nie było to wcześniej widoczne).
Korelacja powinna być z pewnością dodatnia. Oprócz formalnego testu istotności, który tutaj byłby całkowicie bezużyteczny, ponieważ drobne korelacje będą kwalifikować się jako znaczące przy tej wielkości próby, to, czy zostanie uznane za silne, jest kwestią oczekiwań i standardów w danej dziedzinie. Porównywanie ilościowe twojej korelacji z wynikami innych jest dobrym rozwiązaniem.
Szczegół: Skośność jest nadal opisywana w niewłaściwy sposób, zgodnie z konwencją statystyczną. Te zmienne są pochylone w prawo; żargon ten pasuje, gdy patrzy się na histogram z poziomą osią jasności i zauważa, że skośność nazywa się dłuższym ogonem, a nie koncentracją o większej wartości.
źródło
Narzędzie, które chcesz, nazywa się regresem przełączania. Chodzi o to, że istnieje kilka linii regresji, a każdy punkt danych jest przypisany do jednej z nich. Na przykład równanie pierwszej linii regresji wyglądałoby następująco: Równanie linii regresji byłoby następujące: W sumie , powiedzmy , jest różnych linii regresji. Dla dowolnego punktu danych widzimy tylko jedną z linii regresji. Dlatego musi istnieć jakiś mechanizm decydujący, którą linię regresji widzimy dla każdego punktu. Najprostszym mechanizmem jest po prostu rozkład wielomianowy. Oznacza to, że widzimy
Model jest zwykle szacowany na podstawie maksymalnego prawdopodobieństwa. Zakładając, że są dystrybuowane , funkcja prawdopodobieństwa, którą maksymalizowałbyś, to: Funkcja to standardowa normalna gęstość. Maksymalizujesz to w parametrach , z zastrzeżeniem ograniczeń . Jest to zwykle nieco zepsuty problem maksymalizacji, jeśli zamierzasz zastosować metody quasi-Newtona, aby go rozwiązać. Nie możesz po prostu zacząć wszystkich i od zera iϵ N(0,σ2)
Istnieje wiele sposobów, aby zwiększyć zaangażowanie, jeśli chcesz. Być może masz zmienną która Twoim zdaniem wpływa na , czyli która wpływa na wybraną regresję. Cóż, możesz użyć wielomianowej funkcji logit, aby było funkcją :Zi pm pm Zi
Teraz są parametry . W rzeczywistości istnieją parametry , ponieważ wymagana jest normalizacja --- odczytana w logu wielomianowym w celu wyjaśnienia.5 M - 1 δ , γ5M+1 5M−1 δ,γ
Innym sposobem na zwiększenie jego zaangażowania jest użycie metody wyboru , liczby linii regresji. Jestem dość swobodny w podejmowaniu tego rodzaju decyzji w mojej własnej pracy, więc może ktoś inny może wskazać ci najlepszy sposób wyboru.M
źródło
Obserwowałem podobne zachowanie w niektórych moich zestawach danych. W moim przypadku wiele różnych linii było spowodowanych błędem kwantyzacji w jednym z moich algorytmów przetwarzania.
Oznacza to, że patrzymy na wykresy rozproszenia przetworzonych danych, a algorytm przetwarzania miał pewne efekty kwantyzacji, które powodowały zależności w danych, które wyglądały dokładnie tak, jak powyżej.
Naprawienie efektów kwantyzacji sprawiło, że nasza produkcja wyglądała na znacznie gładszą i mniej zbitą.
Jeśli chodzi o komentarz do „korelacji liniowej”. To, co przedstawiłeś, jest niewystarczające do ustalenia, czy dane te są skorelowane liniowo, czy nie. Oznacza to, że w niektórych polach współczynnik korelacji> 0,7 jest uważany za silną korelację liniową. Biorąc pod uwagę, że większość twoich danych jest blisko źródła, całkiem możliwe jest, że twoje dane są liniowo skorelowane z tym, co powiedziałaby „konwencjonalna mądrość”. Korelacja mówi bardzo niewiele o zestawie danych.
źródło