Powiedzmy, że jako właściciel firmy (lub marketing albo każdy, kto rozumie wykres rozproszenia) pokazano wykres rozproszenia dwóch zmiennych: liczby reklam w porównaniu do liczby sprzedaży produktu w ciągu ostatnich 5 lat (lub innej skali czasowej, dzięki czemu mam więcej próbek. Właśnie to wymyśliłem).
Teraz widzi on wykres rozproszenia i mówi się, że współczynnik korelacji (corr) wynosi:
- 1 lub
- 0,5 lub
- 0,11 lub
- 0 lub
- -0,75 lub
- -1
Zasadniczo każda poprawna wartość dla corr
Pytanie: Co to w ogóle oznacza dla osoby podejmującej decyzje lub dowolnego konsumenta wykresu punktowego? Jakie decyzje można na tej podstawie podjąć?
Tj. Jaki jest pożytek z dostrzegania korelacji między dowolnymi dwiema zmiennymi i co można zrobić z tą informacją oddzielnie? Czy chodzi tylko o to, aby zobaczyć, co należy brać pod uwagę przy analizie regresji, czy też nie, czy jest to bardziej praktyczne zastosowanie?
Ciekawe, zawsze pracowałem z tą techniką, ale powiedziano mi, że sama korelacja nie ma większego zastosowania - więc po co „JEST”?
źródło
Spójrz na to z perspektywy hazardu. Powiedzmy, że wiemy, że średnio ludzie, którzy noszą buty robocze do pracy, doznają obrażeń w pracy w wysokości 1,5, a ludzie noszący mokasyny będą mieli średnio 0,05 obrażeń. A może prawdopodobieństwo zranienia osoby noszącej buty robocze wynosi 0,85, a prawdopodobieństwo zranienia osoby noszącej mokasyny to .1.
Jeśli losowo wybiorę osobę z populacji i powiem, że ta osoba ma na sobie buty robocze, i zaoferuję ci równy zakład pieniężny na to, czy w ubiegłym roku doznał urazu w miejscu pracy, czy wziąłbyś zakład? Cóż, postawiłbyś zakład, gdybyś mógł postawić stronę, która doznała kontuzji. 85% czasu wygrywasz, a dostajesz nawet pieniądze.
Chodzi o to, że wiedząc, że informacje dostarczają nam informacji o tym, czy mogą doznawać obrażeń w miejscu pracy. Buty nie mają z tym nic wspólnego, w rzeczywistości buty robocze zapobiegają obrażeniom. Ale ta myląca zmienna tutaj to rodzaj pracy, która idzie w parze z workbootami. A może inne rzeczy, takie jak osoba, być może bardziej lekkomyślna.
źródło
Wyrażenie „korelacja nie oznacza związku przyczynowego” zostaje przerzucone. (Jak napisał Cohen: „to strasznie duża wskazówka”.) Rozbiliśmy to zdanie na studentów ze względu na uprzedzenia właściwe ludzkiemu umysłowi. Kiedy słyszysz, że „wskaźnik przestępczości jest skorelowany ze wskaźnikiem ubóstwa” lub coś w tym rodzaju, nie możesz nie myśleć, że oznacza to, że ubóstwo powoduje przestępstwo. Ludzie przyjmują to naturalnie, ponieważ tak działa umysł. Używamy tego wyrażenia w kółko, mając nadzieję na przeciwdziałanie temu. Jednak po przyswojeniu sobie tego pojęcia wyrażenie traci większość swojej wartości i czas przejść do bardziej wyrafinowanego zrozumienia.
Kiedy istnieje korelacja między dwiema zmiennymi, istnieją dwie możliwości: wszystko to jest zbiegiem okoliczności lub istnieje jakiś wzór przyczynowy w pracy. Nazywanie wzorca na świecie zbiegiem okoliczności jest strasznym objaśnieniem i prawdopodobnie powinno być ostatecznością. To pozostawia przyczynowość. Problem polega na tym, że nie znamy natury tego wzorca przyczynowego. Może być tak, że ubóstwo powoduje przestępczość, ale może być również, że przestępstwo powoduje ubóstwo (np. Ludzie nie chcą mieszkać w obszarze o wysokiej przestępczości, więc się wyprowadzają, a wartości nieruchomości spadają itp.). Możliwe też, że istnieje jakaś trzecia zmienna lub grupa zmiennych, które powodują zarówno przestępczość, jak i ubóstwo, ale w rzeczywistości nie ma bezpośredniegozwiązek przyczynowy między przestępczością a ubóstwem (znany jako model „wspólnej przyczyny”). Jest to szczególnie szkodliwe, ponieważ w modelu statystycznym wszystkie inne źródła zmienności są zwinięte w składniku błędu zmiennej zależnej. W rezultacie zmienna niezależna jest skorelowana z (powodowanym przez) terminem błędu, co prowadzi do problemu endogeniczności . Problemy te są bardzo trudne i nie należy ich lekceważyć. Niemniej jednak nawet w tym scenariuszu ważne jest, aby uznać, że w pracy istnieje rzeczywista przyczynowość.
Krótko mówiąc, kiedy widzisz korelację, powinieneś pomyśleć, że prawdopodobnie istnieje gdzieś jakiś związek przyczynowy , ale że nie znasz natury tego wzorca przyczynowego.
źródło
Myślałem, że mam wiedzę na temat tych rzeczy, ale dopiero w zeszłym miesiącu szukałem słowa „sugeruj” w słowniku i stwierdziłem, że ma on dwa uderzająco różne znaczenia. 1. Zaproponuj i 2. Koniecznie. (!) Korelacja rzadko wymaga związku przyczynowego, ale z pewnością może to sugerować. Jak wskazuje @EpiGrad, jest to konieczny, ale niewystarczający warunek ustalenia związku przyczynowego.
Z biegiem czasu, miejmy nadzieję, że znajdziemy środek między postrzeganiem korelacji jako ostateczności i tak całkowicie bezużytecznej. I przy interpretacji wyników korelacyjnych bierze się pod uwagę wiedzę dotyczącą przedmiotu / dziedziny / treści. Niewiele osób kwestionuje istnienie co najmniej jakiegoś związku przyczynowego podczas oglądania opisywanych wyników sprzedaży i reklamy. Ale zawsze dobrze jest pozostać otwartym na inne możliwości, inne zmienne, które mogą przynajmniej częściowo wyjaśnić zaobserwowany związek. Odczyty dotyczące mylących zmiennych, ważności i tym podobnych opłacają się dzięki dużym dywidendom. Na przykład stary klasyczny quasi-eksperyment Cooka i Campbella ma dobrą sekcję dotyczącą ważności i zagrożeń dla ważności.
źródło
Współczynnik korelacji, podobnie jak inne miary powiązania, jest przydatny, jeśli chcesz wiedzieć, ile znajomości wartości X ma wartość informacyjną na temat wartości Y. Różni się to od wiedzy, czy gdybyś ustawił X na określoną wartość, co wartość Y, którą byś otrzymał (co jest istotą alternatywnej interpretacji związku przyczynowego).
Niemniej jednak w wielu kontekstach (np. Prognozy) wnioski oparte na korelacji byłyby cenne same w sobie. Żółte zęby są skorelowane z rakiem płuc (ponieważ oba są prawdopodobnie spowodowane rakiem). Między nimi nie ma związku przyczynowego: wybielanie zębów nie wyleczy raka płuca. Ale jeśli potrzebujesz szybkiego testu przesiewowego w celu wykrycia raka płuc, sprawdzenie żółtych zębów może być dobrym pierwszym krokiem.
Innym pytaniem jest to, czy współczynnik korelacji jest najlepszą dostępną miarą skojarzenia, ale myślę, że pytanie dotyczy bardziej wartości znajomości związku przyczynowego.
Btw nie tylko korelacja nie jest wystarczającym dowodem związku przyczynowego, ale także nie jest konieczna. Dwie zmienne mogą być powiązane przyczynowo, ale nie wykazują korelacji w żadnym konkretnym zbiorze danych (np. Z powodu błędu selekcji lub pomyłek).
źródło
Nie zgadzam się z tym wyrażeniem, korelacja pozwala poznać poziom powiązania między 2 zmiennymi. Przydaje się wtedy, gdy próbuje się wyjaśnić związek między takimi zmiennymi. Z drugiej strony (jak napisał Macro) korelacja nie jest koniecznym warunkiem przyczynowości, jednak wystarczy wyjaśnić poziom powiązania. Ponadto możesz przetestować niezależność zmiennych, ale korelacja może dać ci inną przydatną informację, współczynnik determinacji.
Niemniej jednak analityk musi znać dziedzinę, aby móc wyjaśnić rodzaj relacji.
źródło
Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Myślę, że gromadzenie danych i projektowanie badań może również odgrywać rolę w odpowiedzi na to pytanie. Nie zaprojektujesz badania i nie zgromadzisz zestawu danych zupełnie dla siebie nieistotnych, nawet w badaniach obserwacyjnych. Dlatego „korelacja nie oznacza związku przyczynowego” może być uzasadniona. Mimo że nie jest to związek przyczynowy, może istnieć związek związany ze stowarzyszeniem.
Jeśli jednak mówisz o dwóch zestawach danych całkowicie nieistotnych, ale nadal chcesz użyć korelacji do wyjaśnienia związku i związku przyczynowego, może to być nieodpowiednie. Na przykład, jeśli wszystkie dwa zbiory danych mają tendencję spadkową, na przykład sprzedaż lodów i liczbę małżeństw, współczynnik korelacji może być bardzo wysoki. Ale czy trzeba rozumieć stowarzyszenie?
źródło