Jaka jest różnica między eksploracją danych a analizą statystyczną?

19

Jaka jest różnica między eksploracją danych a analizą statystyczną?

Na pewnym tle moja edukacja statystyczna była, jak sądzę, raczej tradycyjna. Stawia się konkretne pytanie, opracowuje się badania, a dane są gromadzone i analizowane, aby uzyskać wgląd w to pytanie. W rezultacie zawsze byłem sceptyczny wobec tego, co uważałem za „pogłębianie danych”, tj. Szukanie wzorców w dużym zbiorze danych i używanie tych wzorców do wyciągania wniosków. Mam tendencję do kojarzenia tych ostatnich z eksploracją danych i zawsze uważałem to za nieco pozbawione zasady (wraz z takimi rzeczami, jak procedury wyboru zmiennych algorytmicznych).

Niemniej jednak istnieje duża i rosnąca literatura na temat eksploracji danych. Często widzę, że ta etykieta odnosi się do konkretnych technik, takich jak klastrowanie, klasyfikacja oparta na drzewach itp. Jednak, przynajmniej z mojej perspektywy, techniki te można „rozluźnić” na zbiorze danych lub zastosować w uporządkowany sposób do rozwiązania problemu pytanie. Nazwałbym pierwszą eksplorację danych, a drugą analizę statystyczną.

Pracuję w administracji akademickiej i poproszono mnie o „eksplorację danych” w celu zidentyfikowania problemów i możliwości. Zgodnie z moim doświadczeniem, moje pierwsze pytania brzmiały: czego chcesz się nauczyć i jakie są rzeczy, które Twoim zdaniem przyczyniają się do wydania? Z ich odpowiedzi było jasne, że ja i osoba zadająca pytanie mieliśmy różne pomysły na temat charakteru i wartości eksploracji danych.

Brett
źródło
1
duplikować? stats.stackexchange.com/questions/6/…
Neil McGuigan
3
Jeśli jest duplikat, mogę zgadywać, że eksploracja danych i uczenie maszynowe to to samo!
George Dontas,
@George Dontas Tak, przyszedłem tutaj z linku w komentarzach, jeśli inne pytanie w nadziei, że zobaczę różnicę między ML a eksploracją danych.
DJG

Odpowiedzi:

20

Jerome Friedman napisał jakiś czas temu artykuł: Data Mining and Statistics: What's the Connection? , które uważam za interesujące.

Eksploracja danych stanowiła w dużej mierze problem komercyjny i wynikała z potrzeb biznesowych (w połączeniu z „potrzebą” sprzedawców do sprzedawania oprogramowania i systemów sprzętowych dla firm). Friedman zauważył, że wszystkie „cechy”, które zostały przeforsowane, pochodzą spoza statystyki - od algorytmów i metod, takich jak sieci neuronowe, po analizę danych opartą na GUI - i żadna z tradycyjnych ofert statystycznych nie wydawała się być częścią żadnego z tych systemów (regresja, testowanie hipotez itp.). „Nasza podstawowa metodologia została w dużej mierze zignorowana”. Został również sprzedany jako prowadzony przez użytkownika zgodnie z tym, co zauważyłeś: oto moje dane, oto moje „pytanie biznesowe”, daj mi odpowiedź.

Myślę, że Friedman próbował sprowokować. Nie sądził, że eksploracja danych ma poważne intelektualne podstawy w zakresie metodologii, ale że to się zmieni i statystyka powinna raczej odegrać pewną rolę, niż ją zignorować.

Mam wrażenie, że tak się mniej więcej zdarzyło. Linie zostały zamazane. Statystycy publikują teraz w czasopismach eksploracyjnych. Wydaje się, że w dzisiejszych czasach ministrowie danych mają jakieś szkolenie statystyczne. Podczas gdy pakiety eksploracji danych nadal nie zmieniają uogólnionych modeli liniowych, regresja logistyczna jest dobrze znana wśród analityków - oprócz klastrowania i sieci neuronowych. Optymalny projekt eksperymentalny może nie być częścią rdzenia eksploracji danych, ale oprogramowanie można zmaksymalizować, aby wypluł wartości p. Postęp!

ars
źródło
1
To świetny artykuł i jest zgodny z moją perspektywą na to, czym jest eksploracja danych i czym różni się od statystyki. Chodzi o to, że pochodzi z 1997 roku! Zwróć uwagę na akt oskarżenia lub twoje zalecenie, ale stopień, w jakim dotrzymałem kroku eksploracji danych. Wygląda na to, że muszę złapać aktualną książkę na temat eksploracji danych, aby ją nadrobić.
Brett,
Hej, celowo trzymałem się tej daty, ponieważ myślałem, że zabawnie byłoby zauważyć przedział czasu. :) Książki Michaela Berry'ego i Gordona Linoffa są całkiem dobre i przypadną do gustu statystykom (raczej dla szerszej ekspozycji niż nauki technik statystycznych). Jeśli chcesz wyczuć rozmytą, „korporacyjną” stronę tego pola, pomocne może być przejrzenie jednej z książek na temat produktu dostawcy, takiego jak SAS Enterprise Miner lub SPSS Clementine. Nie polecam kupowania ich, chyba że zamierzasz pracować z samym produktem.
ars
10

Różnica między statystykami a eksploracją danych jest w dużej mierze historyczna, ponieważ wywodzą się one z różnych tradycji: statystyki i informatyki. Eksploracja danych rosła równolegle z pracami w dziedzinie sztucznej inteligencji i statystyki.

Punkt 1.4 Witten & Frank podsumowuje mój punkt widzenia, dlatego przytoczę go szczegółowo:

Jaka jest różnica między uczeniem maszynowym a statystykami? Cynicy, cierpliwie spoglądając na eksplozję komercyjnego zainteresowania (i szumu) w tym obszarze, utożsamiają eksplorację danych ze statystykami i marketingiem. W rzeczywistości nie powinieneś szukać linii podziału między uczeniem maszynowym a statystyką, ponieważ istnieje kontinuum - w tym wielowymiarowe - technik analizy danych. Niektóre wywodzą się z umiejętności nauczanych na standardowych kursach statystycznych, a inne są ściślej powiązane z rodzajem uczenia maszynowego, który powstał z informatyki. Historycznie obie strony miały raczej odmienne tradycje. Jeśli zostanie zmuszony do wskazania jednej różnicy nacisków, być może statystyki będą bardziej zainteresowane testowaniem hipotez,

W przeszłości bardzo podobne metody rozwijały się równolegle w uczeniu maszynowym i statystyce ...

Ale teraz obie perspektywy się zbiegły.

NB1 IMO, eksploracja danych i uczenie maszynowe to bardzo ściśle powiązane terminy. W pewnym sensie techniki uczenia maszynowego są wykorzystywane w eksploracji danych. Regularnie widzę te terminy jako wymienne, a ponieważ są one różne, zwykle idą w parze. Proponuję przejrzeć artykuł „Dwie kultury”, a także inne wątki z mojego pierwotnego pytania.

NB2 Termin „eksploracja danych” może mieć negatywną konotację, gdy jest używany potocznie, co oznacza, że ​​pewien algorytm traci swobodę w danych bez jakiegokolwiek zrozumienia pojęciowego. Wydaje się, że eksploracja danych doprowadzi do fałszywych wyników i nadmiernego dopasowania. Zwykle unikam używania tego terminu w rozmowach z osobami niebędącymi ekspertami, a zamiast tego używam uczenia maszynowego lub uczenia statystycznego jako synonimu.

Shane
źródło
O NB2 - myślę, że masz rację co do konotacji eksploracji danych, a ja nie nawiązałem połączenia z uczeniem maszynowym. Mój trening zawsze podkreślał problemy nadmiernego dopasowania, fałszywości i czerpania korzyści z przypadku i dlatego sceptycznie podchodzę do DM - i nadal jestem, być może, dopóki ktoś nie powie mi, co robią i JAK. Dzięki.
Brett,
1
Moim jedynym sporem na temat rozróżnienia ML / DM byłoby to, że myślę, że DM jest szerszy. Na przykład OLAP i powiązane narzędzia obejmują technologie wydobywcze. Ale pochodzą one od strony informatyki, a nie uczenia maszynowego. Rola handlu w kształtowaniu „znaczenia” eksploracji danych jest trudna do zignorowania - wnosi w razie potrzeby elementy nauk o zarządzaniu, badań operacyjnych, uczenia maszynowego i statystyki. Sprawia również wrażenie czegoś lekkiego, ale zwykle jest to problem dla purystów, a nie praktyków.
ars
@ars: Zgadzam się. Próbowałem powiedzieć, że trochę mówiąc „techniki uczenia maszynowego są wykorzystywane w eksploracji danych” (tj. Eksploracja danych jest super-zestawem). Twój punkt widzenia na temat aplikacji komercyjnych jest również na miejscu. Chociaż ktoś w aplikacji komercyjnej obecnie może odnosić się do swojej pracy jako do czegoś innego (np. „Data science”).
Shane
Racja, powinienem był powiedzieć, że starałem się wyjaśnić różnice, a nie sprzeczać się z tym, co napisałeś. Przepraszamy za błąd. Dobry punkt na zmianę czasów i warunków, takich jak przyjęcie „data science”. Czyż jedna z książek Gelmana nie zaczyna się od czegoś takiego jak „statystyka to nauka o danych”? Więc „kradną” statystykom. Jeszcze raz. :)
ars
8

Eksploracja danych jest klasyfikowana jako opisowa lub predykcyjna. Opisowe wyszukiwanie danych polega na wyszukiwaniu ogromnych zestawów danych i odkrywaniu lokalizacji nieoczekiwanych struktur lub relacji, wzorców, trendów, klastrów i wartości odstających w danych. Z drugiej strony Predictive polega na budowaniu modeli i procedur regresji, klasyfikacji, rozpoznawania wzorców lub na uczeniu maszynowym oraz ocenie dokładności predykcyjnej tych modeli i procedur w przypadku zastosowania do świeżych danych.

Mechanizm wykorzystywany do wyszukiwania wzorów lub struktur w danych wielowymiarowych może być ręczny lub automatyczny; wyszukiwanie może wymagać interaktywnego odpytywania systemu zarządzania bazą danych lub może wymagać użycia oprogramowania do wizualizacji w celu wykrycia anomalii w danych. W terminologii uczenia maszynowego eksploracja danych opisowych nazywana jest uczeniem się bez nadzoru, natomiast eksploracja danych predykcyjnych nazywana jest uczeniem nadzorowanym.

Większość metod wykorzystywanych w eksploracji danych jest związana z metodami opracowanymi w statystyce i uczeniu maszynowym. Najważniejsze z tych metod to ogólne tematy regresji, klasyfikacji, grupowania i wizualizacji. Ze względu na ogromne rozmiary zbiorów danych wiele zastosowań eksploracji danych koncentruje się na technikach zmniejszania wymiarów (np. Selekcja zmiennych) i sytuacjach, w których podejrzewa się, że dane wielowymiarowe leżą na hiperplanach o niższych wymiarach. Ostatnio zwrócono uwagę na metody identyfikacji danych wielowymiarowych leżących na nieliniowych powierzchniach lub rozmaitościach.

W eksploracji danych zdarzają się również sytuacje, w których wnioskowanie statystyczne - w klasycznym znaczeniu - albo nie ma znaczenia, albo ma wątpliwą ważność: ta pierwsza ma miejsce, gdy cała populacja szuka odpowiedzi, a druga ma miejsce, gdy zbiór danych jest Próba „wygody” zamiast losowej próby pobranej z dużej populacji. Gdy dane są gromadzone w czasie (np. Transakcje detaliczne, transakcje na giełdzie, dane pacjentów, dane pogodowe), pobieranie próbek również może nie mieć sensu; uporządkowanie czasowe obserwacji ma kluczowe znaczenie dla zrozumienia zjawiska generującego dane, a traktowanie obserwacji jako niezależnych, gdy mogą być silnie skorelowane, zapewni tendencyjne wyniki.

Głównymi składnikami eksploracji danych są - oprócz teorii i metod statystycznych - obliczenia i wydajność obliczeniowa, automatyczne przetwarzanie danych, techniki dynamicznej i interaktywnej wizualizacji danych oraz opracowanie algorytmu.

Jednym z najważniejszych problemów w eksploracji danych jest obliczeniowy problem skalowalności . Opracowane algorytmy obliczania standardowych eksploracyjnych i potwierdzających metod statystycznych zostały zaprojektowane tak, aby były szybkie i wydajne obliczeniowo w przypadku zastosowania ich do małych i średnich zbiorów danych; jednak wykazano, że większość tych algorytmów nie jest w stanie sprostać wyzwaniu związanemu z obsługą ogromnych zestawów danych. W miarę wzrostu zbiorów danych wiele istniejących algorytmów wykazuje tendencję do gwałtownego spowalniania (a nawet zatrzymywania się).

George Dontas
źródło
8

Eksploracja danych to statystyki, z pewnymi drobnymi różnicami. Można to traktować jako statystyki zmiany marki, ponieważ statystycy są trochę dziwni.

Często wiąże się to ze statystykami obliczeniowymi, tj. Tylko z rzeczami, które można zrobić z komputerem.

Eksperci danych ukradli znaczną część statystyk wielowymiarowych i nazwali je własnymi. Sprawdź spis treści dowolnej wielowymiarowej książki z lat 90. i porównaj ją z nową książką do eksploracji danych. Bardzo podobny.

Statystyka wiąże się z testowaniem hipotez i budowaniem modeli, natomiast eksploracja danych jest bardziej związana z prognozowaniem i klasyfikacją, niezależnie od tego, czy istnieje zrozumiały model.

Neil McGuigan
źródło
1
Co to jest duplikat? Nie widzę nic oczywistego.
Rob Hyndman,
1
Całkiem podobny do tego, co myślałem: stats.stackexchange.com/questions/6/…
Neil McGuigan
1
dobrze. Szukałem eksploracji danych, a nie uczenia maszynowego. Głosuj za zamknięciem, jeśli uważasz, że jest to duplikat.
Rob Hyndman,
Hmm, więc Data Mining == Machine Learning?
ars
1
1) Nie widzę rozróżnienia na statystyki porównawcze. Statystyki niewiele robią, ale nie wymagają komputera. Podejrzewam, że masz na myśli intensywne obliczeniowo procedury, takie jak iteracyjne rozwiązania itp.? Ale są one również powszechne w nowoczesnej pracy statystycznej, która nie polega na eksploracji danych. 2) W mojej własnej (statystycznej) pracy interesowałem się budowaniem modeli w celu wyjaśnienia i przewidywania, w zależności od problemu - nie rozważyłbym tego eksploracji danych. 3) Pozostaje mi wniosek, że współczesne DM jest szczególnym zastosowaniem statystyki, co moim zdaniem jest dobrym wnioskiem.
Brett,
6

Wcześniej napisałem post, w którym poczyniłem kilka obserwacji porównujących eksplorację danych z psychologią. Myślę, że te obserwacje mogą uchwycić niektóre z różnic, które identyfikujesz:

  1. „Wydobywanie danych wydaje się bardziej dotyczy przewidywania przy użyciu obserwowanych zmiennych niż zrozumienia systemu przyczynowego zmiennych utajonych; psychologia jest zwykle bardziej zainteresowana systemem przyczynowym zmiennych ukrytych.
  2. Eksploracja danych zazwyczaj obejmuje ogromne zbiory danych (np. Ponad 10 000 wierszy) gromadzone w celu innym niż cel eksploracji danych. Psychologiczne zestawy danych są zwykle małe (np. Mniej niż 1000 lub 100 wierszy) i gromadzone jawnie w celu zbadania pytania badawczego.
  3. Analiza psychologiczna zazwyczaj obejmuje testowanie określonych modeli. Zautomatyzowane podejścia do opracowywania modeli zwykle nie są interesujące teoretycznie. ”- Data Mining i R.
Jeromy Anglim
źródło
Myślę, że punkty 2 i 3 są użytecznymi komentarzami i są zgodne z tym, co widzę jako rozróżnienie między dwoma SA i DM. Nie jestem pewien co do twojego pierwszego punktu. Wykonałem prace statystyczne, w których chciałem poprawić zrozumienie związków przyczynowych. Jednak wykonałem również pracę statystyczną, w której zadaniem było wzięcie znanych relacji i opracowanie modeli wyłącznie w celu przewidywania, ale które nie miały innych cech „eksploracji danych”.
Brett,
4

Nie sądzę, aby to rozróżnienie było naprawdę związane z różnicą między eksploracją danych a analizą statystyczną. Mówisz o różnicy między analizą eksploracyjną a podejściem do prognozowania modelowania.

Myślę, że tradycja statystyki jest budowana na wszystkich etapach: analiza eksploracyjna, następnie modelowanie, następnie szacowanie, następnie testowanie, a następnie prognozowanie / wnioskowanie. Statystyki przeprowadzają analizę eksploracyjną, aby dowiedzieć się, jak wyglądają dane (podsumowanie funkcji pod R!). Wydaje mi się, że analiza danych jest mniej uporządkowana i można ją zidentyfikować za pomocą analizy eksploracyjnej. Jednak wykorzystuje techniki ze statystyk, które są z szacowania, prognozowania, klasyfikacji ...

Robin Girard
źródło
Mogę to kupić. Eksploracja danych to bardziej eksploracyjne zastosowanie technik statystycznych. Chociaż nie sądzę, że to rozróżnienie wystarczy. Kiedy przeprowadzam EDA na moim zestawie 100 obserwacji z zaprojektowanego eksperymentu, nie sądzę, by ktokolwiek nazwałby to eksploracją danych, prawda?
Brett,