Jaka jest różnica między eksploracją danych a analizą statystyczną?
Na pewnym tle moja edukacja statystyczna była, jak sądzę, raczej tradycyjna. Stawia się konkretne pytanie, opracowuje się badania, a dane są gromadzone i analizowane, aby uzyskać wgląd w to pytanie. W rezultacie zawsze byłem sceptyczny wobec tego, co uważałem za „pogłębianie danych”, tj. Szukanie wzorców w dużym zbiorze danych i używanie tych wzorców do wyciągania wniosków. Mam tendencję do kojarzenia tych ostatnich z eksploracją danych i zawsze uważałem to za nieco pozbawione zasady (wraz z takimi rzeczami, jak procedury wyboru zmiennych algorytmicznych).
Niemniej jednak istnieje duża i rosnąca literatura na temat eksploracji danych. Często widzę, że ta etykieta odnosi się do konkretnych technik, takich jak klastrowanie, klasyfikacja oparta na drzewach itp. Jednak, przynajmniej z mojej perspektywy, techniki te można „rozluźnić” na zbiorze danych lub zastosować w uporządkowany sposób do rozwiązania problemu pytanie. Nazwałbym pierwszą eksplorację danych, a drugą analizę statystyczną.
Pracuję w administracji akademickiej i poproszono mnie o „eksplorację danych” w celu zidentyfikowania problemów i możliwości. Zgodnie z moim doświadczeniem, moje pierwsze pytania brzmiały: czego chcesz się nauczyć i jakie są rzeczy, które Twoim zdaniem przyczyniają się do wydania? Z ich odpowiedzi było jasne, że ja i osoba zadająca pytanie mieliśmy różne pomysły na temat charakteru i wartości eksploracji danych.
źródło
Odpowiedzi:
Jerome Friedman napisał jakiś czas temu artykuł: Data Mining and Statistics: What's the Connection? , które uważam za interesujące.
Eksploracja danych stanowiła w dużej mierze problem komercyjny i wynikała z potrzeb biznesowych (w połączeniu z „potrzebą” sprzedawców do sprzedawania oprogramowania i systemów sprzętowych dla firm). Friedman zauważył, że wszystkie „cechy”, które zostały przeforsowane, pochodzą spoza statystyki - od algorytmów i metod, takich jak sieci neuronowe, po analizę danych opartą na GUI - i żadna z tradycyjnych ofert statystycznych nie wydawała się być częścią żadnego z tych systemów (regresja, testowanie hipotez itp.). „Nasza podstawowa metodologia została w dużej mierze zignorowana”. Został również sprzedany jako prowadzony przez użytkownika zgodnie z tym, co zauważyłeś: oto moje dane, oto moje „pytanie biznesowe”, daj mi odpowiedź.
Myślę, że Friedman próbował sprowokować. Nie sądził, że eksploracja danych ma poważne intelektualne podstawy w zakresie metodologii, ale że to się zmieni i statystyka powinna raczej odegrać pewną rolę, niż ją zignorować.
Mam wrażenie, że tak się mniej więcej zdarzyło. Linie zostały zamazane. Statystycy publikują teraz w czasopismach eksploracyjnych. Wydaje się, że w dzisiejszych czasach ministrowie danych mają jakieś szkolenie statystyczne. Podczas gdy pakiety eksploracji danych nadal nie zmieniają uogólnionych modeli liniowych, regresja logistyczna jest dobrze znana wśród analityków - oprócz klastrowania i sieci neuronowych. Optymalny projekt eksperymentalny może nie być częścią rdzenia eksploracji danych, ale oprogramowanie można zmaksymalizować, aby wypluł wartości p. Postęp!
źródło
Różnica między statystykami a eksploracją danych jest w dużej mierze historyczna, ponieważ wywodzą się one z różnych tradycji: statystyki i informatyki. Eksploracja danych rosła równolegle z pracami w dziedzinie sztucznej inteligencji i statystyki.
Punkt 1.4 Witten & Frank podsumowuje mój punkt widzenia, dlatego przytoczę go szczegółowo:
NB1 IMO, eksploracja danych i uczenie maszynowe to bardzo ściśle powiązane terminy. W pewnym sensie techniki uczenia maszynowego są wykorzystywane w eksploracji danych. Regularnie widzę te terminy jako wymienne, a ponieważ są one różne, zwykle idą w parze. Proponuję przejrzeć artykuł „Dwie kultury”, a także inne wątki z mojego pierwotnego pytania.
NB2 Termin „eksploracja danych” może mieć negatywną konotację, gdy jest używany potocznie, co oznacza, że pewien algorytm traci swobodę w danych bez jakiegokolwiek zrozumienia pojęciowego. Wydaje się, że eksploracja danych doprowadzi do fałszywych wyników i nadmiernego dopasowania. Zwykle unikam używania tego terminu w rozmowach z osobami niebędącymi ekspertami, a zamiast tego używam uczenia maszynowego lub uczenia statystycznego jako synonimu.
źródło
Eksploracja danych jest klasyfikowana jako opisowa lub predykcyjna. Opisowe wyszukiwanie danych polega na wyszukiwaniu ogromnych zestawów danych i odkrywaniu lokalizacji nieoczekiwanych struktur lub relacji, wzorców, trendów, klastrów i wartości odstających w danych. Z drugiej strony Predictive polega na budowaniu modeli i procedur regresji, klasyfikacji, rozpoznawania wzorców lub na uczeniu maszynowym oraz ocenie dokładności predykcyjnej tych modeli i procedur w przypadku zastosowania do świeżych danych.
Mechanizm wykorzystywany do wyszukiwania wzorów lub struktur w danych wielowymiarowych może być ręczny lub automatyczny; wyszukiwanie może wymagać interaktywnego odpytywania systemu zarządzania bazą danych lub może wymagać użycia oprogramowania do wizualizacji w celu wykrycia anomalii w danych. W terminologii uczenia maszynowego eksploracja danych opisowych nazywana jest uczeniem się bez nadzoru, natomiast eksploracja danych predykcyjnych nazywana jest uczeniem nadzorowanym.
Większość metod wykorzystywanych w eksploracji danych jest związana z metodami opracowanymi w statystyce i uczeniu maszynowym. Najważniejsze z tych metod to ogólne tematy regresji, klasyfikacji, grupowania i wizualizacji. Ze względu na ogromne rozmiary zbiorów danych wiele zastosowań eksploracji danych koncentruje się na technikach zmniejszania wymiarów (np. Selekcja zmiennych) i sytuacjach, w których podejrzewa się, że dane wielowymiarowe leżą na hiperplanach o niższych wymiarach. Ostatnio zwrócono uwagę na metody identyfikacji danych wielowymiarowych leżących na nieliniowych powierzchniach lub rozmaitościach.
W eksploracji danych zdarzają się również sytuacje, w których wnioskowanie statystyczne - w klasycznym znaczeniu - albo nie ma znaczenia, albo ma wątpliwą ważność: ta pierwsza ma miejsce, gdy cała populacja szuka odpowiedzi, a druga ma miejsce, gdy zbiór danych jest Próba „wygody” zamiast losowej próby pobranej z dużej populacji. Gdy dane są gromadzone w czasie (np. Transakcje detaliczne, transakcje na giełdzie, dane pacjentów, dane pogodowe), pobieranie próbek również może nie mieć sensu; uporządkowanie czasowe obserwacji ma kluczowe znaczenie dla zrozumienia zjawiska generującego dane, a traktowanie obserwacji jako niezależnych, gdy mogą być silnie skorelowane, zapewni tendencyjne wyniki.
Głównymi składnikami eksploracji danych są - oprócz teorii i metod statystycznych - obliczenia i wydajność obliczeniowa, automatyczne przetwarzanie danych, techniki dynamicznej i interaktywnej wizualizacji danych oraz opracowanie algorytmu.
Jednym z najważniejszych problemów w eksploracji danych jest obliczeniowy problem skalowalności . Opracowane algorytmy obliczania standardowych eksploracyjnych i potwierdzających metod statystycznych zostały zaprojektowane tak, aby były szybkie i wydajne obliczeniowo w przypadku zastosowania ich do małych i średnich zbiorów danych; jednak wykazano, że większość tych algorytmów nie jest w stanie sprostać wyzwaniu związanemu z obsługą ogromnych zestawów danych. W miarę wzrostu zbiorów danych wiele istniejących algorytmów wykazuje tendencję do gwałtownego spowalniania (a nawet zatrzymywania się).
źródło
Eksploracja danych to statystyki, z pewnymi drobnymi różnicami. Można to traktować jako statystyki zmiany marki, ponieważ statystycy są trochę dziwni.
Często wiąże się to ze statystykami obliczeniowymi, tj. Tylko z rzeczami, które można zrobić z komputerem.
Eksperci danych ukradli znaczną część statystyk wielowymiarowych i nazwali je własnymi. Sprawdź spis treści dowolnej wielowymiarowej książki z lat 90. i porównaj ją z nową książką do eksploracji danych. Bardzo podobny.
Statystyka wiąże się z testowaniem hipotez i budowaniem modeli, natomiast eksploracja danych jest bardziej związana z prognozowaniem i klasyfikacją, niezależnie od tego, czy istnieje zrozumiały model.
źródło
Wcześniej napisałem post, w którym poczyniłem kilka obserwacji porównujących eksplorację danych z psychologią. Myślę, że te obserwacje mogą uchwycić niektóre z różnic, które identyfikujesz:
źródło
Nie sądzę, aby to rozróżnienie było naprawdę związane z różnicą między eksploracją danych a analizą statystyczną. Mówisz o różnicy między analizą eksploracyjną a podejściem do prognozowania modelowania.
Myślę, że tradycja statystyki jest budowana na wszystkich etapach: analiza eksploracyjna, następnie modelowanie, następnie szacowanie, następnie testowanie, a następnie prognozowanie / wnioskowanie. Statystyki przeprowadzają analizę eksploracyjną, aby dowiedzieć się, jak wyglądają dane (podsumowanie funkcji pod R!). Wydaje mi się, że analiza danych jest mniej uporządkowana i można ją zidentyfikować za pomocą analizy eksploracyjnej. Jednak wykorzystuje techniki ze statystyk, które są z szacowania, prognozowania, klasyfikacji ...
źródło