Statystyki dotyczące uczenia maszynowego, dokumenty na początek?

10

Mam doświadczenie w programowaniu komputerowym i elementarnej teorii liczb, ale nie mam prawdziwego treningu statystycznego, a ostatnio „odkryłem”, że niesamowity świat całej gamy technik jest w rzeczywistości światem statystycznym. Wydaje się, że faktoryzacje macierzy, kompletacja macierzy, tensory wielowymiarowe, osadzanie, szacowanie gęstości, wnioskowanie bayesowskie, partycje Markowa, obliczenia własne, PageRank są technikami wysoce statystycznymi, a algorytmy uczenia maszynowego, które wykorzystują takie rzeczy, używają wielu statystyk .

Moim celem jest umiejętność czytania artykułów omawiających takie rzeczy oraz wdrażania lub tworzenia algorytmów, przy jednoczesnym zrozumieniu notacji, „dowodów” i użytych argumentów statystycznych. Wydaje mi się, że najtrudniejszą rzeczą jest śledzenie wszystkich dowodów, które dotyczą macierzy.

Jakie podstawowe dokumenty mogą mi pomóc? A może dobry podręcznik z ćwiczeniami, które warto przepracować?

W szczególności niektóre artykuły, które chciałbym całkowicie zrozumieć, to:

  1. Dokładne uzupełnienie macierzy poprzez Convex Optimization, Candes, Recht, 2008
  2. Szybka transformacja Cauchy'ego i szybsza solidna regresja liniowa, Clarkson i in., 2013
  3. Random Projections for Support Vector Machines, Paul i in., 2013
  4. Wysoko-wymiarowe oszacowanie prawdopodobieństwa za pomocą modeli o dużej gęstości, Rippel, Adams, 2013
  5. Uzyskiwanie oszacowań minimalizujących błędy i uniwersalnych limitów błędów wejściowych dla ukończenia macierzy niskiej rangi, Király, Theran, 2013
Cris Stringfellow
źródło
1
Czy znasz już macierze, np. Poprzez zastosowany kurs algebry liniowej, czy jest to część tego, czego szukasz? Powiedziałbym, że pierwsza połowa podanej przez ciebie listy to tematy, które są ważne w statystyce, a nie w technice wysoce statystycznej (co uderza mnie, gdy zmierzam w przeciwnym kierunku). Tutaj jest kilka pytań na temat zalecanych książek do nauki statystycznego uczenia maszynowego. Proponuję podać przykład lub dwa konkretne artykuły, które napotkasz, które chciałbyś zrozumieć; pomoże to lepiej skoncentrować się na otrzymanych odpowiedziach.
kardynał
2
Tak, obeznany z macierzami, poprzez algebrę liniową oraz z koncepcjami przestrzeni wektorowej, podstaw, norm, ale nie do końca rozumiem takie rzeczy jak rozkład na czynniki pierwsze, choć dość jasno rozumiem ortogonalizację Gram-Schmidta i niezoptymalizowany algorytm QR nie do końca jasne, dlaczego działają. Nie rozumiem też, w jaki sposób ludzie mogą uzyskać wektory własne dla losowej macierzy bez wykonywania na niej algorytmu.
Cris Stringfellow

Odpowiedzi:

2

Poleciłbym kurs Andrew Ngs Machine Learning na Coursera, który doskonale prezentuje wszystkie podstawy. Jeśli studiujesz coś związanego z probabilistycznymi modelami graficznymi, kurs Daphne Kollers byłby również dobry.

Jest to także skarbnica zasobów do samodzielnej nauki http://ragle.sanukcode.net/articles/machine-learning-self-study-resources/ Wykłady Herb Grossmana są niesamowite.

Polecono mi również tę książkę https://www.openintro.org/stat/textbook.php, ponieważ ciągle się uczę, a statystyki nie są moim tłem!

Moje dwa centy odnoszą się do matematyki od strony rzeczy i dokumentów, choć nie daję się zbytnio pochwycić matematyki w tle. Naucz się podstaw i zapoznaj się z artykułami, na których zbudowane są wspomniane przez Ciebie dokumenty, i przekonaj się, czy są łatwiejsze (być może będziesz musiał cofnąć kilka artykułów, aby uzyskać coś, co możesz zrozumieć - to właśnie robię sam) - jest wiele różne elementy matematyki w ML i łatwo jest wessać się do króliczej nory (znowu coś zrobiłem więcej niż raz!).

Powodzenia, to naprawdę interesujące pole!

Jim
źródło