Online, skalowalne metody statystyczne

12

Inspiracją do tego była wydajna regresja liniowa online , która była dla mnie bardzo interesująca. Czy są jakieś teksty lub zasoby poświęcone obliczeniom statystycznym na dużą skalę, w których obliczenia z zestawami danych są zbyt duże, aby zmieściły się w pamięci głównej, a być może zbyt zróżnicowane, aby skutecznie podpróbować. Na przykład, czy można dopasować modele z efektami mieszanymi do mody online? Czy ktoś przyjrzał się efektom zastąpienia standardowych technik optymalizacji drugiego rzędu dla MLE technikami typu SGD pierwszego rzędu?

grg s
źródło
Myślę, że odpowiedź brzmi „tak”. Oczywiście jest tu trochę problemu z definicjami. To, co jedna osoba uważa za „na dużą skalę”, czasami bardzo różni się od innych. Mam wrażenie, że np. Wielu naukowców akademickich uważa zestaw danych Netflix za „na dużą skalę”, podczas gdy w wielu warunkach przemysłowych byłoby to uważane za „mizerne”. Jeśli chodzi o techniki szacowania, zwykle z bardzo dużymi danymi, wydajność obliczeniowa przebija wydajność statystyczną. Na przykład metoda momentów w wielu przypadkach będzie działać (prawie), a także MLE w tych ustawieniach i może być znacznie łatwiejsza do obliczenia.
kardynał
2
możesz także zajrzeć do Warsztatu na temat algorytmów dla nowoczesnych zbiorów danych masowych (MMDS). Jest młody, ale przyciąga imponujący zestaw mówców na interfejsach statystyki, inżynierii i informatyki, a także między środowiskiem akademickim a przemysłem.
kardynał
Minęło zaledwie kilka dziesięcioleci, ponieważ większość zestawów danych była zbyt duża, aby zmieścić się w pamięci głównej, a wybór algorytmów stosowanych we wczesnych programach statystycznych to odzwierciedlał. Takie programy nie miały jednak ułatwień dla modeli z efektami mieszanymi.
onestop
Czy jesteś w stanie obliczyć statystyki dla zestawu danych? np. suma lub średnie pozycji danych?
Prawdopodobieństwo

Odpowiedzi:

5

Możesz zajrzeć do projektu Vowpal Wabbit od Johna Langforda z Yahoo! Badania . Jest uczniem online, który specjalizuje się w opadaniu gradientu na kilku funkcjach utraty. VW ma pewne cechy zabójcy:

  • Instaluje się na Ubuntu w trywialny sposób, z „sudo apt-get install installpalpal-wabbit”.
  • Wykorzystuje sztuczkę haszującą dla naprawdę dużych przestrzeni obiektów.
  • Odważniki adaptacyjne specyficzne dla funkcji.
  • Co najważniejsze, istnieje aktywna lista mailingowa i społeczność łącząca projekt.

Książka Bianchi & Lugosi Przewidywanie, uczenie się i gry daje solidne podstawy teoretyczne do nauki online. Ciężka lektura, ale warto!

someben
źródło