„Big data” jest wszędzie w mediach. Wszyscy mówią, że „duże zbiory danych” są najważniejsze w 2012 r., Np. Sondaż KDNuggets na gorące tematy w 2012 r . Mam jednak głębokie obawy. W przypadku dużych zbiorów danych wydaje się, że wszyscy są szczęśliwi, gdy tylko coś wyciągną. Ale czy nie naruszamy wszystkich klasycznych zasad statystycznych, takich jak testowanie hipotez i reprezentatywne pobieranie próbek?
Dopóki przewidujemy tylko ten sam zestaw danych, powinno to być w porządku. Więc jeśli używam danych z Twittera do przewidywania zachowań użytkowników Twittera, to prawdopodobnie jest w porządku. Jednak wykorzystanie danych z Twittera do przewidywania np. Wyborów całkowicie pomija fakt, że użytkownicy Twittera nie są reprezentatywną próbą dla całej populacji. Ponadto większość metod nie będzie w stanie odróżnić prawdziwego nastroju „oddolnego” od kampanii. A Twitter jest pełen kampanii. Analizując Twittera, szybko mierzysz tylko kampanie i boty. (Zobacz na przykład „Yahoo przewiduje amerykańskich zwycięzców politycznych”która jest pełna odpychania ankiet i „analiza nastrojów jest znacznie lepsza”. Przewidywali, że „Romney ma ponad 90-procentowe prawdopodobieństwo wygrania nominacji i wygranej w Karolinie Południowej” (miał 28%, podczas gdy Gingrich miał 40% w tej podstawowej).
Czy wiesz, że inne takie duże zbiory danych zawodzą ? Z grubsza pamiętam, że jeden naukowiec przewidział, że nie będziesz w stanie utrzymać więcej niż 150 przyjaźni. Dopiero co odkrył limit limitów w Friendster ...
Jeśli chodzi o dane z Twittera, a właściwie wszelkie „duże dane” zebrane z sieci, uważam, że często ludzie wprowadzają dodatkowe uprzedzenia w sposób, w jaki zbierają swoje dane. Niewielu będzie miało cały Twitter. Będą mieli pewien podzbiór, który przeliczyli, a to tylko kolejny błąd w ich zestawie danych.
Podział danych na zestaw testowy lub przeprowadzenie weryfikacji krzyżowej prawdopodobnie nie pomaga. Drugi zestaw będzie miał takie samo nastawienie. W przypadku dużych zbiorów danych muszę tak mocno „kompresować” moje informacje, że raczej raczej nie będę się nadawał.
Niedawno usłyszałem ten żart z naukowcem Big Data, który odkrył, że na świecie jest około 6 płci ... i mogę sobie to wyobrazić, że się zdarzy ... „Mężczyzna, Kobieta, Ork, Furry, Tak i Nie”.
Jakie więc metody musimy przywrócić pewną trafność statystyczną z powrotem do analizy, w szczególności, gdy próbujemy przewidzieć coś poza zbiorem danych „dużych zbiorów danych”?
źródło
W eksperymentalnym projektowaniu i analizach istnieje wiele technik, które mogą pomóc w zmniejszeniu uprzedzeń, ale to znów sprowadza się do tego samego: trzeba wiedzieć, co się robi. Analiza dużych zbiorów danych ma ten sam problem, co każda inna analiza danych; cierpi na brak hipotez.
Jasnym przykładem jest regresja wielokrotna z krokowym wyborem zmiennych. Bardzo ładny, powiedzieć, ale z 100 zmiennych mierzonych prawa statystyczne dyktować, że niektóre z nich będą wykazują istotny związek gdy oceniano patrząc czy odpowiednich współczynników różni się znacząco od zera. Im więcej zmiennych w zbiorze danych, tym większa szansa na znalezienie dwóch, które wykazują pewne (bez znaczenia) relacje. Im większy zestaw danych, tym większa szansa na bezsensowne modele z powodu np. Niewielkiego, zakłócającego efektu. Jeśli przetestujesz wiele modeli (a nawet tylko 10 zmiennych, które mogą być wieloma modelami), bardzo prawdopodobne jest, że znajdziesz co najmniej jeden znaczący. Czy to coś znaczy? Nie.
Co zatem należy zrobić? Użyj swojego mózgu:
Wszystkie te rzeczy są oczywiste i dobrze znane. Heck, już w 1984 r. Rosenbaum i Rubin zilustrowali, w jaki sposób wykorzystywać wyniki skłonności do zmniejszania stronniczości w badaniach obserwacyjnych, i to właśnie są największe zbiory danych: dane obserwacyjne. W najnowszej pracy Fenga i wsp. Zaleca się również stosowanie dystansu Mahalanobisa. W rzeczywistości jeden z moich statystycznych bohaterów, Cochran, napisał recenzję na ten temat już w 1973 roku! A co z Rubinem, który wprowadził wielopłaszczyznowe dopasowanie próbkowania i korekcję regresji już w 1979 r. Stare publikacje są poważnie niedoceniane i zdecydowanie zbyt często ignorowane, z pewnością w dziedzinie takiej jak statystyki.
Wszystkie te techniki mają zalety i wady i należy zrozumieć, że zmniejszenie uprzedzeń to nie to samo, co wyeliminowanie uprzedzeń. Ale jeśli masz świadomość:
Big data nie jest usprawiedliwieniem dla fałszywych wyników.
Edytowane po (poprawnej) uwadze @DW, która zwróciła uwagę, że użyłem terminu „nadmierne dopasowanie” w niewłaściwym kontekście.
źródło