dlaczego pomaga to z liczbami ograniczonymi powyżej i poniżej?
Rozkład zdefiniowany w sprawia, że jest odpowiedni jako model dla danych w ( 0 , 1 ) . Nie sądzę, że tekst sugeruje coś więcej niż „to model danych na ( 0 , 1 ) ” (lub bardziej ogólnie na ( a , b ) ).(0,1)(0,1)(0,1)(a,b)
co to za dystrybucja ...?
Termin „rozkład logarytmicznych szans” nie jest niestety całkowicie standardowy (i nawet wtedy nie jest zbyt powszechnym terminem).
Omówię kilka możliwości tego, co to może znaczyć. Zacznijmy od rozważenia sposobu konstruowania rozkładów dla wartości w interwale jednostkowym.
Powszechnym sposobem modelowania ciągłej zmiennej losowej w ( 0 , 1 ) jest rozkład beta , a powszechnym sposobem modelowania dyskretnych proporcji w [ 0 , 1 ] jest skalowany dwumianowy ( P = X / n , przynajmniej gdy X jest liczbą).P( 0 , 1 )[ 0 , 1 ]P.= X/ nX
Alternatywą dla zastosowania rozkładu beta byłoby wzięcie ciągłego odwrotnego CDF ( fa- 1 ) i użycie go do przekształcenia wartości w na linię rzeczywistą (lub rzadko prawdziwą linię środkową), a następnie użycie dowolny odpowiedni rozkład ( G ) do modelowania wartości w przekształconym zakresie. Otwiera to wiele możliwości, ponieważ dla transformacji i modelu dostępna jest dowolna para ciągłych rozkładów na linii rzeczywistej ( F , G ).( 0 , 1 )solfa, G
Na przykład transformacja logarytmiczna (zwany takżelogarytmicznej) byłaby jedna taka transformacja odwrotna-ED (będąc CDF odwrotność standardowejlogistyki), a następnie istnieje wiele dystrybucje możemy rozważyć jako modeleY.Y= log( P1 - P)Y
Możemy wówczas użyć (na przykład) modelu logistycznego dla Y , prostej dwuparametrowej rodziny na linii rzeczywistej. Przekształcenie z powrotem na ( 0 ,( μ , τ)Y poprzez odwrotną transformację logarytmiczną (tj. P = exp ( Y )( 0 , 1 ) ) daje rozkład dwóch parametrów dlaP, taki, który może być jednomodalny, w kształcie litery U, lub w kształcie litery J, symetryczny lub pochylony, na wiele sposobów trochę jak rozkład beta (osobiście nazwałbym to logit -logistic, ponieważ jego logit jest logistyczny). Oto kilka przykładów różnych wartościμ,τ:P.= exp( Y)1 + exp( Y)P.μ , τ
Patrząc na krótką wzmiankę w tekście Witten i wsp., Może to być zamierzone przez „rozkład logarytmicznych szans” - ale równie dobrze mogą oznaczać coś innego.
Inną możliwością jest zamierzenie logit-normal .
Jednak wydaje się, że termin ten był używany przez van Erp & van Gelder (2008) [ 1 ] , na przykład, w odniesieniu do transformacji logarytmicznej szans na rozkład beta (tak więc biorąc F[ 1 ]fasol( 0 , 1 )), na które wydają się wtedy dużo wysiłku. (Wydaje się, że łatwiej jest po prostu uniknąć niewłaściwego modelu, ale może to tylko ja.)
YP.
* ponownie, ma to problem polegający na tym, że jeśli wynosi dokładnie 0 lub 1, to wartośćP.Y- ∞∞
Rozprawa Yan Guo (2009)[ 2 ]
Jak widać, nie jest to termin o jednym znaczeniu. Bez wyraźniejszego wskazania Witten lub jednego z innych autorów tej książki, możemy zgadywać, co jest zamierzone.
[1]: Noel van Erp & Pieter van Gelder, (2008),
„Jak interpretować dystrybucję beta w przypadku awarii”, Materiały
z 6. Międzynarodowych warsztatów probabilistycznych , Darmstadt
link pdf
[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Solidness,
rozprawa skierowana do Graduate School of Wayne State University, Detroit, Michigan
Jestem inżynierem oprogramowania (nie statystykiem), a ostatnio przeczytałem książkę An Introduction to Statistics Learning. Z aplikacjami w R.
Myślę, że to, o czym czytasz, to log-odds lub logit. strona 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Genialna książka - czytam ją od deski do deski. Mam nadzieję że to pomoże
źródło