Książki o „Nauce” w Data Science? [Zamknięte]

26

Jakie książki o nauce i matematyce stoją za nauką o danych? Wydaje się, że tak wiele książek o „analizie danych” programuje samouczki i nie dotyka takich procesów, jak generowanie danych i wnioskowanie statystyczne. Potrafię już kodować, ale słabo rozumiem matematykę / statystyki / teorię tego, co robię.

Jeśli jestem gotów spalić 1000 $ na książkach (czyli około 10 książek ... westchnienie), co mogę kupić?

Przykłady: Kategoryczna analiza danych Agresti , liniowe modele mieszane dla danych podłużnych itp. Itd.

Anton
źródło
Pytanie o „dobre” książki przyciągnie oparte na opiniach odpowiedzi, więc jest to nie na temat. Taflowy.
Spacedman
3
Zmieniłem to, więc szukam tylko książek. Nic opartego na opiniach.
Anton
Jest to pisane statystyki :) Trzymaj się czegoś pragmatycznego, który koncentruje się na przewidywaniu, a nie wnioskowaniu. Zarówno elementy uczenia statystycznego, jak i wprowadzenie do uczenia statystycznego znajdują się na listach większości ludzi.
Dirk Eddelbuettel
Nie mogę jeszcze dodać komentarza, ale tylko FYI ESL jest dostępna za darmo online w formacie pdf
idclark
1
Myślę, że to pytanie należy oznaczyć jako wiki społeczności.
Shagun Sodhani,

Odpowiedzi:

21

Wprowadzający:

Kopać głębiej:

Kilka przykładów specjalnych zainteresowań:

Szersze referencje działają na uczenie maszynowe (nie tak naprawdę o to prosiłeś, ale kompletność):

Papier premiowy:

Def_Os
źródło
2
+1 za papier bonusowy. Świetna lektura
Santiago Cepas,
13

Gdybym tylko mógł ci coś polecić, byłyby to: elementy statystycznego uczenia się i prognozowania przez Hastie, Tibshirani i Friedmana. Zapewnia matematykę / statystykę kryjącą się za wieloma powszechnie stosowanymi technikami w informatyce.

W przypadku technik bayesowskich analiza danych bayesowskich przez Gelmana, Carlina, Sterna, Dunsona, Vehicletari i Rubina jest doskonała.

Wnioskowanie statystyczne autorstwa Caselli i Bergera to dobry podręcznik dla absolwentów na temat teoretycznych podstaw statystyki. Ta książka wymaga dość wysokiego poziomu komfortu w matematyce (teoria prawdopodobieństwa oparta jest na teorii miary, co nie jest łatwe do zrozumienia).

Jeśli chodzi o procesy generowania danych, nie mam rekomendacji dla książki. Mogę powiedzieć, że dobre zrozumienie założeń zastosowanych technik i zapewnienie, że dane zostały zebrane lub wygenerowane w sposób, który nie narusza tych założeń, znacznie przyczynia się do dobrej analizy.

Christopher Louden
źródło
7

Inne odpowiedzi zalecały dobry zestaw książek o matematyce stojącej za nauką o danych. Ale, jak wspomniałeś, nie tylko matematyka i działania, takie jak gromadzenie danych i wnioskowanie na podstawie danych, mają swoje własne reguły i teorie, nawet jeśli nie są tak rygorystyczne jak tło matematyczne (jeszcze).

Do części tych prac sugeruję książkę Beautiful Data: The Stories Behind Elegant Data Solutions, która zawiera dwadzieścia studiów przypadków, takich jak rozdziały napisane przez ludzi naprawdę zaangażowanych w problemy z analizą danych w świecie rzeczywistym. Nie zawiera żadnej matematyki, ale bada takie obszary, jak zbieranie danych, znajdowanie praktycznych sposobów wykorzystania danych w analizach, skalowanie i bardzo dobre wybieranie najlepszych rozwiązań.

Inną naprawdę interesującą książką jest Myślenie za pomocą danych: jak zamienić informacje w spostrzeżenia , co również nie jest techniczne (= samouczek programowania), ale obejmuje ważne tematy dotyczące tego, jak naprawdę wykorzystać moc nauki danych w podejmowaniu decyzji i problemach w świecie rzeczywistym.

Amir Ali Akbari
źródło
7

Lubię sugestie Amira Ali Akbari i dodam kilka własnych, koncentrując się na tematach i umiejętnościach, które nie są odpowiednio omówione w większości książek o uczeniu maszynowym i analizie danych, które koncentrują się na matematyce i / lub programowaniu.

Czyszczenie danych:

Analiza danych bayesowskich (alternatywa dla testowania znaczenia hipotez zerowych w stylu Fishera):

Wnioskowanie w obliczu niepewności, niekompletności, sprzeczności, dwuznaczności, niedokładności, ignorancji itp .:

Eksperymenty:

Symulacja:

Wywołanie eksperckie, oszacowanie probabilistyczne:

MrMeritology
źródło