Co to jest rozkład logarytmiczny?

11

Czytam podręcznik na temat uczenia maszynowego (Data Mining autorstwa Witten i wsp., 2011) i natknąłem się na ten fragment:

... Ponadto można zastosować różne rozkłady. Chociaż rozkład normalny jest zwykle dobrym wyborem dla atrybutów liczbowych, nie jest odpowiedni dla atrybutów, które mają z góry określone minimum, ale nie mają górnej granicy; w tym przypadku bardziej odpowiednia jest dystrybucja „log-normal”. Atrybuty liczbowe ograniczone powyżej i poniżej można modelować za pomocą rozkładu „log-odds” .

Nigdy nie słyszałem o tej dystrybucji. Poszukałem „logarytmicznego rozkładu kursów”, ale nie mogłem znaleźć żadnego odpowiedniego dopasowania ścisłego. Czy ktoś może mi pomóc? Co to jest dystrybucja i dlaczego pomaga w liczbach ograniczonych powyżej i poniżej?

PS Jestem inżynierem oprogramowania, a nie statystykiem.

stackoverflowuser2010
źródło

Odpowiedzi:

14

dlaczego pomaga to z liczbami ograniczonymi powyżej i poniżej?

Rozkład zdefiniowany w sprawia, że ​​jest odpowiedni jako model dla danych w ( 0 , 1 ) . Nie sądzę, że tekst sugeruje coś więcej niż „to model danych na ( 0 , 1 ) ” (lub bardziej ogólnie na ( a , b ) ).(0,1)(0,1)(0,1)(a,b)

co to za dystrybucja ...?

Termin „rozkład logarytmicznych szans” nie jest niestety całkowicie standardowy (i nawet wtedy nie jest zbyt powszechnym terminem).

Omówię kilka możliwości tego, co to może znaczyć. Zacznijmy od rozważenia sposobu konstruowania rozkładów dla wartości w interwale jednostkowym.

Powszechnym sposobem modelowania ciągłej zmiennej losowej w ( 0 , 1 ) jest rozkład beta , a powszechnym sposobem modelowania dyskretnych proporcji w [ 0 , 1 ] jest skalowany dwumianowy ( P = X / n , przynajmniej gdy X jest liczbą).P(0,1)[0,1]P.=X/nX

Alternatywą dla zastosowania rozkładu beta byłoby wzięcie ciągłego odwrotnego CDF ( fa-1 ) i użycie go do przekształcenia wartości w na linię rzeczywistą (lub rzadko prawdziwą linię środkową), a następnie użycie dowolny odpowiedni rozkład ( G ) do modelowania wartości w przekształconym zakresie. Otwiera to wiele możliwości, ponieważ dla transformacji i modelu dostępna jest dowolna para ciągłych rozkładów na linii rzeczywistej ( F , G ).(0,1)solfa,sol

Na przykład transformacja logarytmiczna (zwany takżelogarytmicznej) byłaby jedna taka transformacja odwrotna-ED (będąc CDF odwrotność standardowejlogistyki), a następnie istnieje wiele dystrybucje możemy rozważyć jako modeleY.Y=log(P.1-P.)Y

Możemy wówczas użyć (na przykład) modelu logistycznego dla Y , prostej dwuparametrowej rodziny na linii rzeczywistej. Przekształcenie z powrotem na ( 0 ,(μ,τ)Y poprzez odwrotną transformację logarytmiczną (tj. P = exp ( Y )(0,1) ) daje rozkład dwóch parametrów dlaP, taki, który może być jednomodalny, w kształcie litery U, lub w kształcie litery J, symetryczny lub pochylony, na wiele sposobów trochę jak rozkład beta (osobiście nazwałbym to logit -logistic, ponieważ jego logit jest logistyczny). Oto kilka przykładów różnych wartościμ,τ:P.=exp(Y)1+exp(Y)P.μ,τ

wprowadź opis zdjęcia tutaj

Patrząc na krótką wzmiankę w tekście Witten i wsp., Może to być zamierzone przez „rozkład logarytmicznych szans” - ale równie dobrze mogą oznaczać coś innego.

Inną możliwością jest zamierzenie logit-normal .

Jednak wydaje się, że termin ten był używany przez van Erp & van Gelder (2008) [ 1 ] , na przykład, w odniesieniu do transformacji logarytmicznej szans na rozkład beta (tak więc biorąc F[1]fasol(0,1)), na które wydają się wtedy dużo wysiłku. (Wydaje się, że łatwiej jest po prostu uniknąć niewłaściwego modelu, ale może to tylko ja.)

YP.

* ponownie, ma to problem polegający na tym, że jeśli wynosi dokładnie 0 lub 1, to wartośćP.Y-

Rozprawa Yan Guo (2009)[2)]

Jak widać, nie jest to termin o jednym znaczeniu. Bez wyraźniejszego wskazania Witten lub jednego z innych autorów tej książki, możemy zgadywać, co jest zamierzone.

[1]: Noel van Erp & Pieter van Gelder, (2008),
„Jak interpretować dystrybucję beta w przypadku awarii”, Materiały
z 6. Międzynarodowych warsztatów probabilistycznych , Darmstadt
link pdf

[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Solidness,
rozprawa skierowana do Graduate School of Wayne State University, Detroit, Michigan

Glen_b - Przywróć Monikę
źródło
1
(+1) Przeszukanie całej książki wskazuje, że nie ma żadnych wyjaśnień. Kontekst sugeruje, że „rozkład logarytmiczno-szansowy” odnosi się do określonego modelu, podobnie jak „lognormal” zaproponowano w poprzednim zdaniu jako rozkład uniwersalny dla wszystkich wartości nieujemnych (!).
whuber
1
@ whuber Zgadzam się z twoją charakterystyką tego, co jest w książce - nie zamierzałem, aby moje komentarze dotyczące użycia tego terminu w innych kontekstach w odniesieniu do dystrybucji próbek sugerowały, że taki był zamysł w książce, ale tylko jako wskazanie, że jest to termin o kilku znaczeniach. W omawianych fragmentach moją radą dla osób uczących się tego materiału (jak w wielu sprawach) byłoby przeczytanie więcej niż jednej książki.
Glen_b
2

Jestem inżynierem oprogramowania (nie statystykiem), a ostatnio przeczytałem książkę An Introduction to Statistics Learning. Z aplikacjami w R.

Myślę, że to, o czym czytasz, to log-odds lub logit. strona 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Genialna książka - czytam ją od deski do deski. Mam nadzieję że to pomoże

JasonEdinburgh
źródło
Dziękuję za wskaźnik. Zakładając, że rozkład logarytmiczno-szansowy jest taki sam jak „rozkład logistyczny”, sprawdziłem ten drugi na Wikipedii. Wygląda na to, że jego plik PDF nie ma dolnej ani górnej granicy. Nadal zastanawiam się, dlaczego w cytowanym przeze mnie podręczniku napisano, że „za pomocą tej dystrybucji można modelować atrybuty liczbowe ograniczone powyżej i poniżej”.
stackoverflowuser2010
Myślę, że może mówi o wyjściu funkcji, gdzie granice wynoszą od 0,0 (niemożliwe) do 1,0 (określone). (Mogę się tutaj całkowicie mylić)
JasonEdinburgh
Możliwe, że Twój model może generować dowolnie duże pozytywne lub negatywne wyniki. Mogą one nie być interpretowane w kategoriach ograniczonego zakresu, takiego jak prawdopodobieństwo, ale mogą być interpretowane jako iloraz logarytmiczny przy użyciu funkcji logit i jej odwrotności funkcji logistycznej.
Henry