Jakie książki o nauce i matematyce stoją za nauką o danych? Wydaje się, że tak wiele książek o „analizie danych” programuje samouczki i nie dotyka takich procesów, jak generowanie danych i wnioskowanie statystyczne. Potrafię już kodować, ale słabo rozumiem matematykę / statystyki / teorię tego, co robię.
Jeśli jestem gotów spalić 1000 $ na książkach (czyli około 10 książek ... westchnienie), co mogę kupić?
Przykłady: Kategoryczna analiza danych Agresti , liniowe modele mieszane dla danych podłużnych itp. Itd.
Odpowiedzi:
Wprowadzający:
Kopać głębiej:
Kilka przykładów specjalnych zainteresowań:
Szersze referencje działają na uczenie maszynowe (nie tak naprawdę o to prosiłeś, ale kompletność):
Papier premiowy:
źródło
Gdybym tylko mógł ci coś polecić, byłyby to: elementy statystycznego uczenia się i prognozowania przez Hastie, Tibshirani i Friedmana. Zapewnia matematykę / statystykę kryjącą się za wieloma powszechnie stosowanymi technikami w informatyce.
W przypadku technik bayesowskich analiza danych bayesowskich przez Gelmana, Carlina, Sterna, Dunsona, Vehicletari i Rubina jest doskonała.
Wnioskowanie statystyczne autorstwa Caselli i Bergera to dobry podręcznik dla absolwentów na temat teoretycznych podstaw statystyki. Ta książka wymaga dość wysokiego poziomu komfortu w matematyce (teoria prawdopodobieństwa oparta jest na teorii miary, co nie jest łatwe do zrozumienia).
Jeśli chodzi o procesy generowania danych, nie mam rekomendacji dla książki. Mogę powiedzieć, że dobre zrozumienie założeń zastosowanych technik i zapewnienie, że dane zostały zebrane lub wygenerowane w sposób, który nie narusza tych założeń, znacznie przyczynia się do dobrej analizy.
źródło
Inne odpowiedzi zalecały dobry zestaw książek o matematyce stojącej za nauką o danych. Ale, jak wspomniałeś, nie tylko matematyka i działania, takie jak gromadzenie danych i wnioskowanie na podstawie danych, mają swoje własne reguły i teorie, nawet jeśli nie są tak rygorystyczne jak tło matematyczne (jeszcze).
Do części tych prac sugeruję książkę Beautiful Data: The Stories Behind Elegant Data Solutions, która zawiera dwadzieścia studiów przypadków, takich jak rozdziały napisane przez ludzi naprawdę zaangażowanych w problemy z analizą danych w świecie rzeczywistym. Nie zawiera żadnej matematyki, ale bada takie obszary, jak zbieranie danych, znajdowanie praktycznych sposobów wykorzystania danych w analizach, skalowanie i bardzo dobre wybieranie najlepszych rozwiązań.
Inną naprawdę interesującą książką jest Myślenie za pomocą danych: jak zamienić informacje w spostrzeżenia , co również nie jest techniczne (= samouczek programowania), ale obejmuje ważne tematy dotyczące tego, jak naprawdę wykorzystać moc nauki danych w podejmowaniu decyzji i problemach w świecie rzeczywistym.
źródło
Lubię sugestie Amira Ali Akbari i dodam kilka własnych, koncentrując się na tematach i umiejętnościach, które nie są odpowiednio omówione w większości książek o uczeniu maszynowym i analizie danych, które koncentrują się na matematyce i / lub programowaniu.
Czyszczenie danych:
Analiza danych bayesowskich (alternatywa dla testowania znaczenia hipotez zerowych w stylu Fishera):
Wnioskowanie w obliczu niepewności, niekompletności, sprzeczności, dwuznaczności, niedokładności, ignorancji itp .:
Eksperymenty:
Symulacja:
Wywołanie eksperckie, oszacowanie probabilistyczne:
źródło