Kontekst
Popularnym pytaniem na tej stronie jest „ Jakie są typowe grzechy statystyczne? ”. Jednym z grzechów wspomniano przy założeniu, że „korelacja implikuje przyczynowości ...” Link
Następnie w komentarzach z 5 pozytywnymi opiniami sugeruje się, że: „Google zarabia 65 mld USD rocznie, nie dbając o różnicę”.
Ryzykując nadmierną analizę lekkiego żartu, pomyślałem, że może to być przydatny punkt do dyskusji na temat rozróżnienia między korelacją a przyczynowością oraz praktycznego znaczenia tego rozróżnienia; i być może mogłoby to uwypuklić coś na temat związku między uczeniem maszynowym a rozróżnieniem między korelacją a przyczyną.
Zakładam, że komentarz dotyczy technologii, które leżą u podstaw generowania wyników wyszukiwania i technologii związanych z wyświetlaniem reklam.
Pytanie
- W jakim stopniu rozróżnienie między korelacją a związkiem przyczynowym jest istotne dla generowania dochodów Google, być może koncentrując się w szczególności na generowaniu dochodów dzięki technologiom związanym z wyświetlaniem reklam i wysokiej jakości wynikom wyszukiwania?
źródło
Odpowiedzi:
Prosta odpowiedź brzmi: Google (lub ktokolwiek) powinien dbać o to rozróżnienie w zakresie, w jakim zamierza interweniować . Wiedza przyczynowa mówi ci o skutkach interwencji (działań) w danej dziedzinie.
Jeśli na przykład Google chce zwiększyć współczynniki klikalności reklam, zwiększyć liczbę użytkowników Gmaila lub Google+, albo nakłonić użytkowników do korzystania z Google zamiast Bing, muszą znać skutki potencjalnych działań (np. Zwiększenie rozmiar czcionki reklam, promowanie Google+ w czasopismach drukowanych lub publikowanie różnic między odpowiednio wynikami wyszukiwania Google i Bing). Korelacja jest wystarczająco dobra, aby wyszukiwarka Google działała dobrze, ale w przypadku innych systemów (i całej firmy) rozróżnienie często ma znaczenie.
Warto zauważyć, że Google (i wiele firm z firmami internetowymi) stale przeprowadza eksperymenty online. Jest to jeden z najprostszych i najlepszych sposobów identyfikowania i szacowania zależności przyczynowych.
źródło
Po pierwsze, to tylko żart i jest niepoprawny. Google ma wielu bardzo utalentowanych statystyk, ekspertów od wyszukiwania informacji, językoznawców, ekonomistów, niektórych psychologów i innych. Ci ludzie spędzają dużo czasu, ucząc wielu niestatystów na temat różnicy między korelacją a przyczyną. Biorąc pod uwagę, że jest to duża organizacja, mogą istnieć kieszenie, nawet duże kieszenie, niewiedzy, ale twierdzenie jest zdecydowanie fałszywe. Co więcej, duża część tej edukacji ma do czynienia z klientami, zwłaszcza z reklamodawcami.
Głębsza odpowiedź: różnica jest niezwykle ważna. Wystarczy spojrzeć na ranking wyników wyszukiwania i pozwolić mi wyjść poza samą „korelację”, aby uwzględnić miary podobieństwa, funkcje oceniania itp. Niektóre strony są oceniane jako dobre wyniki dla niektórych zapytań. Mają różne funkcje predykcyjne, które są ważne dla ich rankingu. W przeciwieństwie do tych dobrych stron, które są dobrymi wynikami dla zapytań, jest to zestaw stron internetowych, które są bardzo złymi wynikami dla tych samych zapytań. Jednak twórcy tych stron poświęcają wiele wysiłku, aby wyglądali jak dobre strony z liczbowego punktu widzenia, takie jak dopasowania tekstowe, łącza internetowe i inne. Jednak fakt, że strony te są liczbowo „podobne” do dobrych stron, nie oznacza, że w rzeczywistości są to dobre strony. Dlatego Google zainwestował i będzie nadal inwestował wiele wysiłku, aby określić, jakie rozsądne funkcje odróżniają (oddzielne) dobre i złe strony.
To nie jest całkiem korelacja i związek przyczynowy, ale jest głębsze. Dobre strony dla niektórych zapytań mogą być odwzorowane w przestrzeni numerycznej, gdzie wyglądają podobnie i różnią się od wielu nietrafnych lub złych stron, ale to, że wyniki znajdują się w tym samym obszarze przestrzeni cech, nie oznacza, że pochodzą z tego samego podzbioru „wysokiej jakości” w sieci.
Prostsza odpowiedź: bardzo prostą perspektywą jest odniesienie się do rankingu wyników. Najlepszy wynik powinien być pierwszy, ale fakt, że coś jest na pierwszym miejscu, nie oznacza, że jest to najlepszy wynik. Według niektórych wskaźników oceny może się okazać, że ranking Google jest skorelowany ze złotym standardem ocen jakości, ale to nie znaczy, że ich ranking sugeruje, że wyniki są naprawdę w tej kolejności pod względem jakości i trafności.
Aktualizacja (trzecia odpowiedź): z czasem pojawia się inny aspekt, który wpływa na nas wszystkich: najwyższy wynik Google może zostać uznany za wiarygodny, ponieważ jest to najlepszy wynik w Google. Chociaż analiza linków (np. „PageRank” - jedna metoda analizy linków) jest próbą odzwierciedlenia postrzeganej autorytatywności, z czasem nowe strony w temacie mogą po prostu wzmocnić tę strukturę linków poprzez link do najlepszego wyniku w Google. Nowsza strona, która jest bardziej autorytatywna, ma problem z przewrotką w stosunku do pierwszego wyniku. Jak Google chce dostarczyć najbardziej odpowiedniej strony w chwili obecnej , wiele czynników, w tym tak zwanym „bogaty-get-bogatsze” zjawisko, wynikać domniemany efekt korelacji na postrzeganą przyczynowości.
Aktualizacja (czwarta odpowiedź): zdałem sobie sprawę (dla komentarza poniżej), że warto przeczytać Alegorię jaskini Platona, aby dowiedzieć się, jak interpretować korelację i związek przyczynowy w wyniku „refleksji / projekcji” rzeczywistości i jak my (lub nasze maszyny) to postrzegamy. Korelacja, ściśle ograniczona do korelacji Pearsona, jest zdecydowanie zbyt ograniczona jako interpretacja problemu nieporozumienia (szerszej niż tylko korelacja) i związku przyczynowego.
źródło
Autor quipu tutaj.
Ten komentarz został częściowo zainspirowany przemową Davida Mease'a (w Google), w której powiedział, a parafrazuję, że firmy ubezpieczeniowe samochodów nie dbają o to, czy bycie mężczyzną powoduje więcej wypadków, o ile jest to skorelowane, muszą naliczać więcej. W rzeczywistości nie można zmienić czyjejś płci w eksperymencie, więc przyczyny nie można było nigdy wykazać.
W ten sam sposób Google nie musi się przejmować, czy kolor czerwony zmusza kogoś do kliknięcia reklamy, jeśli jest skorelowany z większą liczbą kliknięć, może za nią zapłacić więcej.
Inspiracją był także ten artykuł w Wired: The End of Theory: The Data Deluge Sprawia, że metoda naukowa staje się przestarzała . Cytat:
„Podstawową filozofią Google jest to, że nie wiemy, dlaczego ta strona jest lepsza niż ta: jeśli statystyki przychodzących linków mówią, że tak, to wystarczy”.
Oczywiście Google ma wielu bardzo inteligentnych ludzi, którzy znają różnicę między przyczynowością a korelacją, ale w ich przypadku mogą zarobić mnóstwo pieniędzy, nie dbając o to.
źródło
Zgadzam się z Davidem : różnica ma znaczenie, jeśli zamierzasz interweniować, a Google może przetestować wyniki interwencji, przeprowadzając kontrolowane eksperymenty. (Optymalny harmonogram takich eksperymentów zależy od zestawu hipotez przyczynowych, których uczysz się z poprzednich eksperymentów oraz danych obserwacyjnych , więc korelacje są nadal przydatne!)
Istnieje drugi powód, dla którego Google może chcieć poznać związki przyczynowe. Relacje przyczynowe są bardziej odporne na interwencje innych graczy. Interwencje mają zwykle charakter lokalny, więc mogą zmienić jedną część sieci przyczynowej, ale pozostawić wszystkie pozostałe mechanizmy przyczynowe bez zmian. Natomiast relacje predykcyjne mogą zawieść, jeśli zerwane zostanie odległe połączenie przyczynowe. Internet stale się zmienia, a Google powinien być zainteresowany tym, które funkcje środowiska online są bardziej odporne na te zmiany.
źródło