W matematyce istnieją takie gałęzie, jak algebra, analiza, topologia itp. W uczeniu maszynowym uczenie się pod nadzorem, bez nadzoru i wzmacniające. W każdej z tych gałęzi są drobniejsze gałęzie, które dodatkowo dzielą metody.
Mam problem ze zrównaniem się ze statystykami. Jakie byłyby główne gałęzie statystyki (i gałęzie podrzędne)? Idealna partycja prawdopodobnie nie jest możliwa, ale wszystko jest lepsze niż duża pusta mapa.
self-study
classification
silly.deer
źródło
źródło
Odpowiedzi:
Uważam te systemy klasyfikacji za wyjątkowo nieprzydatne i sprzeczne. Na przykład:
i tak dalej. Nie ma jednoznacznych „gałęzi” matematyki i nie powinno być statystyk.
źródło
To drobny kontrapunkt dla odpowiedzi Roba Hyndmana. Zaczęło się od komentarza, a potem stało się dla niego zbyt skomplikowane. Jeśli jest to zbyt dalekie od odpowiedzi na główne pytanie, przepraszam i usunę je.
Biologia przedstawia relacje hierarchiczne na długo przed pierwszym doodle Darwina (link znajduje się w komentarzu Nicka Coxa). Większość związków ewolucyjnych jest wciąż pokazywana w przypadku tego rodzaju ładnego, czystego, rozgałęziającego się „drzewa filogenetycznego”:
W końcu jednak zdaliśmy sobie sprawę, że biologia jest bardziej nieuporządkowana. Czasami dochodzi do wymiany genetycznej (poprzez krzyżowanie i inne procesy) między różnymi gatunkami i genami obecnymi w jednej części drzewa „przeskakując” do innej części drzewa. Poziomy transfer genów przesuwa geny w taki sposób, że proste przedstawienie drzewa powyżej jest niedokładne. Nie porzuciliśmy jednak drzew, a jedynie stworzyliśmy modyfikacje tego typu wizualizacji:
Jest to trudniejsze do naśladowania, ale zapewnia dokładniejszy obraz rzeczywistości.
Inny przykład:
Jednak nigdy nie przedstawiamy tych bardziej złożonych liczb na początek, ponieważ trudno je zrozumieć bez zrozumienia podstawowych pojęć. Zamiast tego uczymy podstawowej idei za pomocą prostej figury, a następnie przedstawiamy im bardziej złożoną figurę i nowsze komplikacje w historii.
Każda „mapa” statystyk byłaby zarówno niedokładna, jak i cennym narzędziem nauczania. Wizualizacje formy sugerowanej przez OP są bardzo przydatne dla studentów i nie należy ich ignorować tylko dlatego, że w ogóle nie uchwycają rzeczywistości. Możemy dodać więcej złożoności do obrazu, gdy mają one podstawową strukturę.
źródło
Możesz zajrzeć do słów kluczowych / tagów witryny Cross Validated.
Oddziały jako sieć
Jednym ze sposobów na to jest wykreślenie go jako sieci opartej na relacjach między słowami kluczowymi (jak często pokrywają się w tym samym poście).
Gdy używasz tego skryptu sql, aby pobrać dane witryny z (data.stackexchange.com/stats/query/edit/1122036)
Następnie otrzymujesz listę słów kluczowych dla wszystkich pytań z wynikiem 2 lub wyższym.
Możesz przeglądać tę listę, wykreślając coś takiego:
Aktualizacja: to samo z kolorem (w oparciu o wektory własne macierzy relacji) i bez znacznika samokształcenia
Możesz wyczyścić ten wykres nieco dalej (np. Usunąć tagi, które nie odnoszą się do pojęć statystycznych, takich jak tagi oprogramowania, na powyższym wykresie jest to już zrobione dla tagu „r”) i poprawić reprezentację wizualną, ale myślę, że że powyższy obraz pokazuje już dobry punkt wyjścia.
Kod R:
Hierarchiczne gałęzie
Uważam, że powyższe wykresy sieciowe odnoszą się do niektórych uwag dotyczących czysto rozgałęzionej struktury hierarchicznej. Jeśli chcesz, myślę, że możesz wykonać hierarchiczne grupowanie, aby zmusić go do hierarchicznej struktury.
Poniżej znajduje się przykład takiego modelu hierarchicznego. Nadal należałoby znaleźć odpowiednie nazwy grup dla różnych klastrów (ale nie sądzę, że ten hierarchiczny klaster jest dobrym kierunkiem, dlatego pozostawiam go otwartym).
Miara odległości dla grupowania została ustalona metodą prób i błędów (wprowadzanie korekt, aż klastry będą wyglądać ładnie).
Napisane przez StackExchangeStrike
źródło
Łatwym sposobem na znalezienie odpowiedzi na twoje pytanie jest poszukiwanie wspólnych tabel klasyfikacji. Na przykład w niektórych publikacjach do klasyfikacji prac stosuje się klasyfikację przedmiotu z matematyki z 2010 r . Są one istotne, ponieważ tak wielu autorów klasyfikuje własne prace.
Istnieje wiele przykładów podobnej klasyfikacji, np arXiv na klasyfikację lub edukacji rosyjskiego ministerstwa UDK (uniwersalne classifictaion dziesiętnym), który jest szeroko stosowany do wszystkich publikacji i badań.
Innym przykładem jest JEL Claasification System of American Economic Association. Artykuł Roba Hyndmana „ Automatyczne prognozowanie szeregów czasowych: pakiet prognostyczny dla R. ” Jest klasyfikowany jako C53, C22, C52 zgodnie z JEL. Hyndman ma jednak sens w krytykowaniu klasyfikacji drzew. Lepszym podejściem może być tagowanie, np. Słowa kluczowe w jego pracy to: „Modele ARIMA, automatyczne prognozowanie, wygładzanie wykładnicze, przedziały prognozowania, modele przestrzeni stanów, szeregi czasowe, R.” Można argumentować, że są one lepszym sposobem klasyfikacji dokumentów, ponieważ nie są one hierarchiczne i można zbudować wiele hierarchii.
@whuber stwierdził, że niektóre najnowsze osiągnięcia, takie jak uczenie maszynowe, nie będą podlegały statystykom w obecnych klasyfikacjach. Na przykład spójrz na artykuł „ Głębokie uczenie się: wprowadzenie dla matematyków stosowanych ” autorstwa Catherine F. Higham, Desmond J. Higham. Sklasyfikowali swoją pracę pod wyżej wymienionym MSC jako 97R40, 68T01, 65K10, 62M45. są one objęte informatyką, edukacją matematyczną i analizą numeryczną oprócz statystyk
źródło
Jednym ze sposobów rozwiązania tego problemu jest spojrzenie na sieci cytowań i współautorstwa w czasopismach statystycznych, takich jak Annals of Statistics, Biometrika, JASA i JRSS-B. Zostało to wykonane przez:
Zidentyfikowali społeczności statystyk i wykorzystali swoje zrozumienie domen, aby oznaczyć społeczności jako:
Artykuł zawiera szczegółowe omówienie społeczności wraz z rozkładem większych na dalsze podspołeczności.
To może nie do końca odpowiedzieć na pytanie, ponieważ dotyczy to dziedzin badań statystycznych, a nie wszystkich dziedzin, w tym tych, które nie są już aktywne. Mam nadzieję, że mimo to jest pomocne. Oczywiście istnieją inne zastrzeżenia (takie jak rozważenie tylko tych czterech czasopism), które są omówione w dalszej części artykułu.
źródło
Widzę wiele niesamowitych odpowiedzi i nie wiem, w jaki sposób można otrzymać skromną własną klasyfikację, ale nie znam żadnej wszechstronnej książki ze wszystkimi statystykami, która pokazywałaby podsumowanie i myślę, że @ mkt wspaniale skomentował, przydatna może być klasyfikacja kierunku studiów. Oto mój strzał:
Oczywiście jest to zbyt uproszczone, ma jedynie na celu przybliżyć pomysł komuś, kto ledwo zna dziedzinę, każdy z nas tutaj z pewnością wie, że istnieje wiele metod pomiędzy kategoriami tutaj, wiele innych, których nie znałem Lista, ponieważ są mniej znane lub po prostu zapomniałem. Mam nadzieję że ci się spodoba.
źródło
Jednym ze sposobów uporządkowania tych informacji jest znalezienie dobrej książki i przejrzenie spisu treści. Jest to paradoks, ponieważ konkretnie pytałeś o statystyki , podczas gdy większość wstępnych tekstów na ten temat dotyczy statystyki i teorii prawdopodobieństwa razem. Książka, którą czytam na temat regresji, ma teraz następujący spis treści:
Modele danych binarnych
Modele regresji ogólnej
(Pozostałe sekcje wspierają matematykę i teorię prawdopodobieństwa)
źródło