Dobra książka z równym naciskiem na teorię i matematykę

W latach szkolnych i na uniwersytecie miałem wystarczająco dużo kursów statystyki. Dobrze rozumiem pojęcia, takie jak CI, wartości p, interpretacja istotności statystycznej, testowanie wielokrotne, korelacja, prosta regresja liniowa (z najmniejszymi kwadratami) (ogólne modele liniowe) i wszystkie testy hipotezy. Poznałem go w większości wcześniejszych czasów głównie matematycznie. I ostatnio, dzięki książce Intuitive Biostatistics , zrozumiałem i bezprecedensowe zrozumienie faktycznej teorii konceptualnej.

Teraz brakuje mi zrozumienia dopasowania modeli (szacowanie parametrów do modelu) i tym podobnych. W szczególności pojęcia takie jak szacowanie maksymalnego prawdopodobieństwa, uogólnione modele liniowe, bayesowskie podejście do statystyki wnioskowania zawsze wydają mi się obce. Nie ma wystarczającej liczby przykładów, samouczków lub rozsądnych pod względem koncepcyjnym, jak można znaleźć na prostych modelach probabilistycznych lub na innych (podstawowych) tematach w Internecie.

Jestem bioinformatykiem i pracuję na danych RNA-Seq, które zajmują się nieprzetworzoną liczbą odczytów w kierunku znalezienia, powiedzmy, ekspresji genów (lub różnicowej ekspresji genów). Z mojego tła, nawet jeśli nie znam modeli statystycznych, jestem w stanie zrozumieć przyczynę założenia rozkładu Poissona i ujemnych dwumianów itd. Ale niektóre prace dotyczą uogólnionych modeli liniowych i szacują MLE itp., Które Uważam, że mam niezbędne przygotowanie do zrozumienia.

Myślę, że o to, o co proszę, jest podejście, które niektórzy eksperci uważają za przydatne i (a) książki, które pomagają mi zrozumieć te pojęcia w bardziej intuicyjny sposób (nie tylko rygorystyczną matematykę, ale teorię popartą matematyką). Ponieważ w większości zamierzam je zastosować, byłbym zadowolony (w tej chwili) ze zrozumienia, co jest, a później mogę wrócić do rygorystycznych dowodów matematycznych ... Czy ktoś ma jakieś zalecenia? Nie mam nic przeciwko kupowaniu więcej niż 1 książki, jeśli tematy, o które prosiłem, są rzeczywiście rozproszone, aby je omówić w książce.

Dziękuję Ci bardzo!

bayesian references maximum-likelihood generalized-linear-model Bieg
źródło

Czy mógłbyś polecić mi dobre źródła informacji o danych RNA-Seq i wyzwaniach statystycznych w tej dziedzinie?

Biostat

biostat, oczywiście, strona seqanswers.com jest bardzo dobrym źródłem informacji dla NGS. Możesz zacząć od różnych technologii i sposobu ich działania: goo.gl/NLuvJ To są niektóre artykuły, które wyjaśniają niektóre problemy statystyczne z danymi NGS. Krótko mówiąc, są to techniczne i biologiczne oszacowanie wariancji (w odniesieniu do ekspresji genów). 1) Jedna z pierwszych prac oceniających zmienność techniczną: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: narzędzie do wykrywania ekspresji genów: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders

Arun

Konwersja na CW, ponieważ wygląda na to, że zostanie zaoferowanych kilka dobrych sugestii i nie ma widocznego obiektywnego standardu, aby zdecydować, który z nich będzie najlepszy. Mam nadzieję, że ułatwi to także czytelnikom głosowanie na wiele odpowiedzi :-).

whuber

kurwa, jasne! ma sens. Czy mogę zamieścić post na wiki społeczności? czy wymaga uprawnień moderatora?

Arun

Odpowiedzi:

Znajdziesz tu wszystko, co nie bayesowskie, o które pytałeś . Strategie modelowania regresji Franka Harrella . Zalecenia bayesowskie zostawiłbym bardziej kompetentnym ludziom (chociaż mam na półce książki Gelmana, Carlina, Sterna i Rubina , a także Gilksa , Richardsona i Speigelhaltera ). Na rynku powinno być kilka książek o biostatach bayesowskich.

Aktualizacja: McCullach i Nelder (1989) to oczywiście klasyczna książka na temat GLM. To był przełomowy jak na swój czas, ale szczerze mówiąc, uważam to za nudne. Poza tym nie obejmuje późniejszych dodatków, takich jak diagnostyka resztkowa, modele z zerowym napełnieniem lub rozszerzenia wielopoziomowe / hierarchiczne. Hardin i Hilbe (2007) szczegółowo opisują niektóre z tych nowszych rzeczy w praktycznych przykładach w Stata (gdzie GLM i rozszerzenia są bardzo dobrze zaimplementowane; Hardin pracował w Stata Corp. pisząc wiele z tych poleceń, a także przyczyniając się do estymator kanapkowy).

StasK
źródło

Cześć StasK, dziękuję bardzo! Uważam, że modelowanie regresji spełniłoby moje wymagania. Ile obejmują GLM? Widzę również, że twoje odniesienia do wnioskowania bayesowskiego są standardowymi, które zawsze uważam za zalecane. Twoim zdaniem, jakie są łatwe / trudne do naśladowania (tak jakby poziom był zbyt zaawansowany)? Czy też rzuciłeś okiem na książkę Uogólnione modele liniowe ? Jednym z autorów jest JA Nelder. Chciałbym też kupić tę książkę o modelach statystycznych . Czy masz jakieś przemyślenia na ten temat? Dzięki!

Arun

Nie widziałem książki Freedmana. Jest dość interesujący, choć wydaje się dość lekki pod względem rygoru i nie jestem pewien, czy jestem z tego zadowolony. (Książka bardzo lekka z matematyki, która mówi o regresji bez algebry macierzy, ale BARDZO głęboko w naukowym rygorze, jest w większości nieszkodliwą ekonometrią autorstwa Angrista i Pischke, a jeśli pracujesz z modelami przyczynowymi, ta książka jest koniecznością.) tak naprawdę nie znam twojej wiedzy matematycznej / statystycznej, więc trudno będzie mi ocenić, czy te książki będą trudne. Niektóre książki bayesowskie mogą być; zakładają, że znasz już MLE i GLM.

StasK,

Zaktualizowałem moją odpowiedź, aby zawierała odniesienia do McCullacha i Neldera.

StasK,

Jestem inżynierem elektroniki. został bioinformatykiem. Miałem kursy z zakresu statystyki (dla teorii komunikacji), prawdopodobieństwa i procesów losowych, nie przeszkadza mi rachunek różniczkowy (choć nieco zardzewiały), a także algebra liniowa. Oczywiście są to głównie studia licencjackie ... Moim celem jest bycie rozsądnym koncepcyjnie (więcej interpretacji geometrycznych, zrozumienie metod i, co najważniejsze, cel) itp. Oczywiście nie mam nic przeciwko matematyce, jeśli to pochodzi z tych przepisów. Jeszcze raz dziękuję za rekomendacje!

Arun,

Poleciłbym następujące dwie książki:

Biostat
źródło

Te książki wyjaśniają dobre rzeczy, ale nie te, o które OP pytał.

StasK

@StasK, czy możesz wyjaśnić, które rzeczy nie znajdują się w powyższych książkach?

Biostat

Uczyłem z HTF, a rzeczy, których nauczyłem z tego, dotyczyły funkcji podstawowych, efektywnych stopni swobody, wyboru modelu, lasso, walidacji krzyżowej itp. MLE i GLM, którymi zainteresowany był OP, są w najlepszym razie wspomniane. Zakłada się albo, że student statystyki zna te rzeczy z ogólnego szkolenia statystycznego, albo studenci CS używają SVM zamiast regresji logistycznej jako reakcja kolana na dane binarne. Materiały bayesowskie są również wspomniane tylko w takim zakresie, w jakim reguły decyzji bayesowskiej są w pewnym sensie optymalne; powiedzmy, że nie ma MCMC ani koniugacji.

StasK

Czy czytałeś książkę „Metody statystyczne dla bioinformatyki”?

Biostat

@biostat, nie, nie mam. Nie pracuję w bioinformatyce, ale wiem, że to nieco inny świat. Nie mogę więc przedstawić żadnych rozsądnych zaleceń. Moim zdaniem gałąź biostatystyki, która zajmuje się modelami takimi jak GLM, GEE, modele podłużne i modele przeżycia, ma więcej wspólnego z ekonometrią (powiedzmy, że książka Wooldridge'a na temat modeli danych przekrojowych i panelowych może być dobrą rekomendacją dla niektórych osób pracujących z biostatem z tymi modelami) niż z genetyką statystyczną, rodzinną kontrolą wskaźnika błędów i eksploracją danych, która wydaje się być Twoją domeną wiedzy.

StasK,