Czy społeczność ucząca się na maszynie nadużywa „uwarunkowana” i „sparametryzowana przez”?

13

Powiedzmy, że zależy od α . Rygorystycznie rzecz biorąc,Xα

  • jeśli i α są zmiennymi losowymi, moglibyśmy napisać p ( X α ) ;Xαp(Xα)

  • jeśli jednak jest zmienną losową, a α jest parametrem, musimy zapisać p ( X ; α ) .Xαp(X;α)

Zauważyłem kilkakrotnie, że społeczność ucząca się maszyn wydaje się ignorować różnice i nadużywać warunków.

Na przykład w słynnym modelu LDA, gdzie jest parametrem Dirichleta zamiast zmiennej losowej.α

wprowadź opis zdjęcia tutaj

Czy nie powinno to być ? Widzę wielu ludzi, w tym oryginalnych autorów artykułu LDA, piszących to jako p ( θ α ) .p(θ;α)p(θα)

Hazard Sibbs
źródło
6
Z matematycznego punktu widzenia zawsze można warunkować stałą, ponieważ jest to ograniczający przypadek zmiennej losowej. Z punktu widzenia bayesowskiego wszystkie niewiadome są traktowane jak zmienne losowe, więc sensowne jest stosowanie całego zapisu warunkowego.
Xi'an
1
@ Xi'an Rozumiem twój punkt widzenia na „warunkowanie na stałym”. Ale wyobraź sobie, że rysuję z kategorycznego rozkładu parametru θ , tj. X C a t ( θ ) . Czy mogę zapisać rozkład jako p ( X θ ) ? Wydaje mi się to dziwne, ponieważ zawsze można ustawić stałe θ . p ( X ; θ ) wydaje mi się wygodniejszy. XθXCat(θ)p(Xθ)θp(X;θ)
Sibbs Gambling
4
p(Xθ)

Odpowiedzi:

14

Myślę, że chodzi tu bardziej o statystyki bayesowskie / nie bayesowskie niż o uczenie maszynowe vs. statystyki.

X,αp(Xα)Xαααp(X;α)p(Xα)p(α)ααα

p(X;α)p(Xα)p

Juho Kokkala
źródło