Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM).
Moimi celami są:
- Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla stanu medycznego, takiego jak przewlekła choroba nerek;
- Zidentyfikuj prawdopodobieństwo (lub prawdopodobieństwo), że u pacjenta rozwinie się stan chorobowy na podstawie stanów, które miał w przeszłości;
- Zrób to samo co 1 i 2, ale z procedurami i / lub diagnozami.
- Korzystnie wyniki byłyby interpretowane przez lekarza
Patrzyłem na takie artykuły jak kamień milowy Heritage Health Prize i wiele się od nich nauczyłem, ale koncentrują się one na przewidywaniu hospitalizacji.
Oto moje pytania: Jak myślisz, jakie metody sprawdzają się w przypadku takich problemów? I jakie zasoby byłyby najbardziej przydatne do nauki o zastosowaniach nauki danych i metodach związanych z opieką zdrowotną i medycyną kliniczną?
EDYCJA 2, aby dodać tabelę tekstu jawnego:
CKD jest chorobą docelową, „przewlekłą chorobą nerek”, „.any” oznacza, że nabyli tę chorobę w dowolnym momencie, „.isbefore.ckd” oznacza, że mieli tę chorobę przed pierwszą diagnozą CKD. Pozostałe skróty odpowiadają innym warunkom zidentyfikowanym przez grupy kodów ICD-9CM. To grupowanie występuje w SQL podczas procesu importowania. Każda zmienna, z wyjątkiem pacjent_age, jest binarna.
źródło
Odpowiedzi:
Nigdy nie pracowałem z danymi medycznymi, ale z ogólnego rozumowania powiedziałbym, że relacje między zmiennymi w opiece zdrowotnej są dość skomplikowane. Różne modele, takie jak losowe lasy, regresja itp., Mogą uchwycić tylko część relacji i zignorować inne. W takich okolicznościach sensowne jest zastosowanie ogólnej eksploracji statystycznej i modelowania .
Na przykład pierwszą rzeczą, którą bym zrobił, było znalezienie korelacji między możliwymi warunkami prekursorowymi a diagnozami. Np. W jakim odsetku przypadków przewlekła choroba nerek poprzedzona była długą grypą? Jeśli jest wysoka, nie zawsze oznacza to przyczynowość , ale daje całkiem dobre jedzenie do myślenia i pomaga lepiej zrozumieć relacje między różnymi warunkami.
Kolejnym ważnym krokiem jest wizualizacja danych. Czy CKD występuje u mężczyzn częściej niż u kobiet? Co z ich miejscem zamieszkania? Jaki jest rozkład przypadków CKD według wieku? Trudno uchwycić duży zestaw danych jako zestaw liczb, ich wykreślenie znacznie ułatwia.
Gdy masz pojęcie o tym, co się dzieje, przeprowadź test hipotez, aby sprawdzić swoje założenia. Jeśli odrzucisz hipotezę zerową (podstawowe założenie) na rzecz alternatywnej, gratulacje, zrobiłeś „coś prawdziwego”.
Wreszcie, gdy dobrze zrozumiesz swoje dane, spróbuj stworzyć kompletny model . Może to być coś ogólnego, na przykład PGM (np. Ręcznie wykonana sieć bayesowska), lub coś bardziej szczegółowego, jak regresja liniowa lub SVM , lub cokolwiek innego. Ale w jakikolwiek sposób będziesz już wiedział, jak ten model odpowiada twoim danym i jak możesz zmierzyć jego wydajność.
Jako dobry startowy materiał do nauki podejścia statystycznego poleciłbym wprowadzenie do statystyki Sebastiana Thruna. Chociaż jest dość prosty i nie zawiera zaawansowanych tematów, opisuje najważniejsze pojęcia i zapewnia systematyczne zrozumienie teorii prawdopodobieństwa i statystyki.
źródło
Chociaż nie jestem naukowcem danych, jestem epidemiologiem pracującym w warunkach klinicznych. Twoje pytanie badawcze nie określiło przedziału czasowego (tj. Szansy na rozwój CKD za 1 rok, 10 lat, całe życie?).
Zasadniczo musiałbym przejść przez kilka etapów, zanim nawet pomyślałem o modelowaniu (analiza jednowymiarowa, analiza dwuwymiarowa, kontrole kolinearności itp.). Jednak najczęściej stosowaną metodą próby przewidzenia zdarzenia binarnego (przy użyciu ciągłych zmiennych binarnych OR) jest regresja logistyczna. Jeśli chcesz spojrzeć na CKD jako wartość laboratoryjną (albumina moczu, eGFR), zastosowałbyś regresję liniową (wynik ciągły).
Podczas gdy stosowane metody powinny być oparte na danych i pytaniach, klinicyści są przyzwyczajeni do obserwowania ilorazów szans i współczynników ryzyka, ponieważ są to najczęściej zgłaszane miary asocjacji w czasopismach medycznych, takich jak NEJM i JAMA.
Jeśli pracujesz nad tym problemem z punktu widzenia zdrowia ludzkiego (w przeciwieństwie do Business Intelligence), modele prognostyczne kliniczne Steyerberga są doskonałym źródłem.
źródło
„Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla schorzenia, takiego jak przewlekła choroba nerek”
Nie jestem pewien, że jest to możliwe do ID z najbardziej wpływowych warunkach; Myślę, że będzie to zależeć od używanego modelu. Jeszcze wczoraj dopasowałem losowy las i przyspieszone drzewo regresji do tych samych danych, a kolejność i względna ważność każdego modelu przypisana zmiennym były zupełnie inne.
źródło