Co dokładnie oznacza pożyczanie informacji?

11

Często ludzie mówią o pożyczaniu lub udostępnianiu informacji w bayesowskich modelach hierarchicznych. Nie mogę uzyskać prostej odpowiedzi na temat tego, co to właściwie oznacza i czy jest to unikalne dla bayesowskich modeli hierarchicznych. W pewnym sensie mam pomysł: niektóre poziomy w twojej hierarchii mają wspólny parametr. Nie mam jednak pojęcia, jak to się przekłada na „pożyczanie informacji”.

  1. Czy „pożyczanie informacji” / „wymiana informacji” to popularne słowo, które ludzie lubią wyrzucać?

  2. Czy istnieje przykład z zamkniętymi postaciami bocznymi, który ilustruje to zjawisko udostępniania?

  3. Czy jest to unikalne w analizie bayesowskiej? Ogólnie, kiedy widzę przykłady „pożyczania informacji”, są to po prostu mieszane modele. Być może nauczyłem się tych modeli w staromodny sposób, ale nie widzę dzielenia się.

Nie jestem zainteresowany rozpoczęciem filozoficznej debaty na temat metod. Jestem tylko ciekawy użycia tego terminu.

EliK
źródło
1
W przypadku pytania 2. link może być podświetlający: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement,
Chciałbym zobaczyć wzmiankę o teorii informacji w odpowiedziach tutaj.
shadowtalker,

Odpowiedzi:

10

Jest to termin, który pochodzi konkretnie z empirycznego Bayesa (EB), w rzeczywistości koncepcja, do której się odnosi, nie istnieje w prawdziwym wnioskowaniu bayesowskim. Pierwotnym terminem była „siła zaciągania pożyczek”, która została ukuta przez Johna Tukeya w latach 60. XX wieku, a następnie popularyzowana przez Bradleya Efrona i Carla Morrisa w szeregu artykułów statystycznych na temat paradoksu Stein'a i parametrycznego EB w latach 70. i 80. XX wieku. Wiele osób używa teraz „pożyczania informacji” lub „udostępniania informacji” jako synonimów tego samego pojęcia. Powodem, dla którego możesz to usłyszeć w kontekście modeli mieszanych, jest to, że najczęstsze analizy modeli mieszanych mają interpretację EB.

EB ma wiele zastosowań i ma zastosowanie do wielu modeli statystycznych, ale zawsze kontekstem jest to, że masz dużą liczbę (ewentualnie niezależnych) przypadków i próbujesz oszacować konkretny parametr (taki jak średnia lub wariancja) w każdym przypadku. W wnioskowaniu bayesowskim wnioskujesz później o wnioskowaniu na temat parametru na podstawie zarówno danych obserwowanych dla każdego przypadku, jak i wcześniejszego rozkładu dla tego parametru. W wnioskowaniu EB wcześniejszy rozkład parametru jest szacowany na podstawie całego zbioru przypadków danych, po czym wnioskowanie przebiega jak w przypadku wnioskowania bayesowskiego. Dlatego przy szacowaniu parametru dla konkretnego przypadku używasz zarówno danych dla tego przypadku, jak i szacunkowego wcześniejszego rozkładu, a ten ostatni reprezentuje „informację” lub „siłę”

Teraz możesz zobaczyć, dlaczego EB ma „pożyczać”, a prawdziwy Bayes nie. W prawdziwym Bayesie wcześniejsza dystrybucja już istnieje, więc nie trzeba jej błagać ani pożyczać. W EB wcześniejszy rozkład został utworzony z samych zaobserwowanych danych. Kiedy wyciągamy wnioski na temat konkretnego przypadku, wykorzystujemy wszystkie zaobserwowane informacje z tego przypadku i trochę informacji z każdego z pozostałych przypadków. Mówimy, że jest „pożyczony”, ponieważ informacje są przekazywane, gdy przechodzimy dalej, aby wyciągnąć wnioski na temat następnej sprawy.

Idea EB i „pożyczania informacji” jest szeroko stosowana w genomice statystycznej, gdy każdy „przypadek” jest zwykle genem lub cechą genomową (Smyth, 2004; Phipson i in., 2016).

Bibliografia

Efron, Bradley i Carl Morris. Paradoks Steina w statystyce. Scientific American 236, no. 5 (1977): 119–127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Modele liniowe i empiryczne metody Bayesa do oceny ekspresji różnicowej w eksperymentach mikromacierzy. Zastosowania statystyczne w genetyce i biologii molekularnej Tom 3, wydanie 1, artykuł 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS i Smyth, GK (2016). Solidne oszacowanie hiperparametrów chroni przed genami hiperzmiennymi i poprawia moc wykrywania różnicowej ekspresji. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920

Gordon Smyth
źródło
1
Nie sądzę, aby ta interpretacja była poprawna. Na przykład modele efektów mieszanych pożyczają informacje, ale można je analizować w tradycyjnym kontekście bayesowskim
Cliff AB,
1
@CliffAB Jeśli zagłębisz się w analizy modelu mieszanego, przekonasz się, że analiza jest praktycznie zawsze empiryczna Bayesa, a nie prawdziwa Bayesa. Większość autorów oczywiście powie, że robi Bayesa, gdy tak naprawdę jest EB, ponieważ większość autorów nie robi rozróżnienia. Jeśli uważasz, że możesz podać przykład prawdziwej analizy modelu mieszanego Bayesa, to zapraszam do zrobienia tego.
Gordon Smyth,
1
@CliffAB W nielicznych przypadkach, gdy stosowana jest prawdziwa analiza Bayesa dla modeli mieszanych (np. MCMC lub Winbugs), wówczas użycie terminu „pożyczyć informacje” byłoby nie na miejscu. Z pewnością nie zgadzałoby się z tym, co Tukey i Efron rozumieli przez „pożyczanie”.
Gordon Smyth
1
@CliffAB Zgadzam się, że brms jest pakietem bayesowskim, dlatego termin „pożycz informacje” nie pojawia się w dokumentacji brms.
Gordon Smyth
1
Proste modele bayesowskie nie „pożyczają informacji”, ale modele wielopoziomowe tak, chociaż myślę, że bardziej popularnym terminem w tej dziedzinie jest „częściowe łączenie”. Oto klasyczna dyskusja na ten temat od A. Gelmana. Ogólnie rzecz biorąc, jeśli zaakceptujesz pogląd, że modele efektów mieszanych „pożyczają informacje”, nie jestem pewien, jak można powiedzieć, że mieszane efekty Bayesa nie; wcześniejsze pojawia się na poziomie poniżej pożyczonych informacji. Jeśli mówimy, że modele efektów mieszanych nie pożyczają informacji, to wyjaśnia moje zamieszanie związane z twoim roszczeniem.
Cliff AB
5

Rozważ prosty problem, taki jak oszacowanie średnich z wielu grup. Jeśli twój model traktuje je jako całkowicie niezwiązane, to jedyne informacje o każdym środku to informacje z tej grupy. Jeśli twój model traktuje swoje środki jako nieco powiązane (na przykład w niektórych modelach z efektami mieszanymi), wówczas szacunki będą bardziej precyzyjne, ponieważ informacje z innych grup informują (regularyzują, kurczą się w kierunku wspólnej średniej) oszacowania dla danej grupy. To przykład „informacji o pożyczaniu”.

Pojęcie pojawia się w pracach aktuarialnych związanych z wiarygodnością (niekoniecznie z tym konkretnym terminem „zaciągania pożyczek”, chociaż zaciąganie pożyczek w tym sensie jest wyraźnie określone we wzorach); to sięga długą drogę, przynajmniej sto lat temu, a wyraźne prekursory sięgają połowy XIX wieku. Na przykład patrz Longley-Cook, LH (1962) Wprowadzenie do teorii wiarygodności PCAS, 49, 194-221.

Oto Whitney, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):

Istnieje na przykład ryzyko, które należy wyraźnie sklasyfikować jako warsztat maszynowy. Wobec braku innych informacji powinien on zatem sfałszować stawkę warsztatu mechanicznego, a mianowicie średnią stawkę dla wszystkich rodzajów ryzyka tej klasy. Z drugiej strony ryzyko ma swoje własne doświadczenie. Jeśli ryzyko jest duże, może to być lepszy przewodnik po ryzyku niż doświadczenie klasowe. W każdym razie, niezależnie od tego, czy ryzyko jest duże, czy małe, oba te elementy mają wartość dowodową i oba należy wziąć pod uwagę. Trudność wynika z faktu, że ogólnie dowody są sprzeczne; problemem jest zatem znalezienie i zastosowanie kryterium, które da każdemu odpowiednią wagę.

Chociaż nie ma tutaj terminu pożyczanie, wyraźnie widać, że można wykorzystać informacje na poziomie grupy do poinformowania nas o tym warsztacie mechanicznym . [Pojęcia pozostają niezmienione, kiedy „siła zaciągania kredytu” i „informacja o zaciągnięciu pożyczki” zaczynają być stosowane w tej sytuacji]

Glen_b - Przywróć Monikę
źródło
1
Doceniam ten przykład, ponieważ jasno wyjaśnia, co robi pożyczanie, ale szukam bardziej precyzyjnej definicji.
EliK,
Precyzyjna definicja nieprecyzyjny, intuicyjne określenie? Wydaje mi się, że można to zrobić - być może można to zdefiniować w kategoriach zmniejszenia wariancji poprzez powiązanie parametrów między grupami, ale można bardzo łatwo wykluczyć prawdopodobne użycie tego pojęcia
Glen_b
Nie było dla mnie jasne, czy nieprecyzyjna intuicja ma rzeczywistą definicję.
EliK
3

σR2)

σR2)σR2)

σR2)σR2)σRσR2). Im mniej informacji w danych, tym ważniejsze staje się wcześniejsze informacje. Jeśli jeszcze tego nie zrobiłeś, sugeruję próbę symulacji modeli efektów mieszanych z tylko kilkoma podmiotami. Możesz być zaskoczony, jak niestabilne są szacunki z metod Frequentist, szczególnie gdy dodajesz tylko jedną lub dwie wartości odstające ... i jak często można zobaczyć prawdziwe zbiory danych bez wartości odstających? Uważam, że ten problem jest objęty analizą danych bayesowskich autorstwa Gelmana i in., Ale niestety nie sądzę, aby był dostępny publicznie, więc nie ma hiperłącza.

Wreszcie modelowanie wielopoziomowe to nie tylko mieszane efekty, chociaż są one najczęściej. Każdy model, na który wpływ mają parametry nie tylko priory i dane, ale także inne nieznane parametry, można nazwać modelem wielopoziomowym. Oczywiście jest to bardzo elastyczny zestaw modeli, ale można go napisać od zera i dopasować przy minimalnym nakładzie pracy przy użyciu narzędzi takich jak Stan, NIMBLE, JAGS itp. W tym zakresie nie jestem pewien, czy powiedziałbym, że wielopoziomowy modelowanie to „hype”; w zasadzie możesz napisać dowolny model, który można przedstawić jako ukierunkowany wykres acyklicznyi dopasuj go natychmiast (zakładając, że ma to rozsądny czas działania). Daje to o wiele większą moc i potencjalną kreatywność niż tradycyjne wybory (tj. Pakiety modeli regresji), ale nie wymaga budowania od podstaw całego pakietu R, aby dopasować nowy typ modelu.

Cliff AB
źródło
Dziękuję za Twoją odpowiedź. Aby wyjaśnić, nie sugerowałem, że modelowanie wielopoziomowe to „szum”. Pytałem, czy „pożyczanie informacji” ma dokładne znaczenie, czy też ten konkretny termin to tylko szum.
EliK,
@EliK: Nie jestem pewien, czy ma to dokładne znaczenie; Gordon Smyth podaje to, co niektórzy mogą uważać za dokładne, tj. Empiryczne Bayesa, ale sposób, w jaki widzę ten powszechnie używany termin, nie wydaje się pasować do tego znaczenia. Osobiście nie sądzę, że to tylko hype; jest to dokładnie motywacja do stosowania modeli efektów mieszanych zamiast modeli efektów stałych, chociaż wykracza to poza zwykłe ramy modelu regresji. Myślę, że wiele osób mówi bardziej niejasne „modelowanie wielopoziomowe” zamiast bardziej precyzyjnego „modelowania z efektami mieszanymi”, ponieważ teraz jest to bardziej modne.
Cliff AB
Powiedziałbym, że szum jest w artykułach i blogach ML, gdzie argumentuje się, że potrzebujesz modeli bayesowskich do wdrożenia modeli wielopoziomowych. Byłbym zainteresowany działającym przykładem - gdzie porównuje się z crosswalidowanym modelem regularnym (do prognozowania)
seanv507
Jeśli chodzi o to, co jest warte, jedyną alternatywą dla Bayesian jest Maximum Likelihood, która jest po prostu Bayesian z jednolitym przełożonym. To nie jest tak naprawdę źle.
shadowtalker,
1
@shadowtalker: jeśli weźmiesz pod uwagę metody MLE jako Bayesian, to słowo Bayesian w zasadzie nie ma znaczenia w statystykach. Jest to jednak zgodne z niektórymi błędami, które widzę w literaturze ML.
Cliff AB
2

Zakładam, że ponieważ oznaczyłeś uczenie maszynowe, że jesteś zainteresowany predykcją, a nie wnioskowaniem (uważam, że zgadzam się z odpowiedzią @Glen_b, ale tłumaczę tylko na ten kontekst / słownictwo)

Twierdziłbym, że w tym przypadku jest to modne słowo. Uregulowany model liniowy ze zmienną grupy pożyczy informacje: prognoza na poziomie indywidualnym będzie kombinacją średniej grupy i indywidualnego efektu. Jednym ze sposobów myślenia o regularyzacji l1 / l2 jest to, że przypisuje ona współczynnik kosztu redukcji całkowitego błędu, ponieważ zmienna grupowa wpływa na więcej próbek niż zmienna indywidualna, będzie presja na oszacowanie efektu grupowego, pozostawiając mniejsze odchylenie od efekt grupowy dla każdej zmiennej indywidualnej.

W przypadku pojedynczych punktów z wystarczającą ilością danych indywidualny efekt będzie „silny”, a dla tych z małą ilością danych efekt będzie słaby.

Myślę, że najłatwiej to zobaczyć, biorąc pod uwagę regularyzację L1 i 3 osoby z tej samej grupy z takim samym skutkiem. Problem nieregularny ma nieskończoną liczbę rozwiązań, a regularyzacja daje unikalne rozwiązanie.

Przypisanie całego efektu do współczynnika grupy ma najniższą normę l1, ponieważ potrzebujemy tylko 1 wartości, aby objąć 3 osoby. I odwrotnie, przypisanie całego efektu do poszczególnych współczynników ma najgorsze, mianowicie 3-krotność normy 11 przypisania efektu do współczynnika grupowego.

Zauważ, że możemy mieć tyle hierarchii, ile chcemy, i na interakcje wpływa podobnie: regularyzacja będzie wypychać efekty do głównych zmiennych, a nie rzadsze interakcje.

Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - połączone przez @ IsabellaGhement podaje wycenę siły zaciągania pożyczek

„Ten efekt jest czasem nazywany skurczem, ponieważ bardziej ekstremalne skurczenie wartości jest zbliżane do bardziej rozsądnej, bardziej średniej wartości. W książce lme4 Douglas Bates stanowi alternatywę dla skurczu [nazwa]”

Termin „skurcz” może mieć negatywne konotacje. John Tukey wolał nazywać ten proces mianem szacunków dla poszczególnych podmiotów „siły zaciągania” od siebie nawzajem. Jest to zasadnicza różnica w modelach leżących u podstaw modeli efektów mieszanych w porównaniu z modelami ściśle ustalonymi efektami. W modelu z efektami mieszanymi zakładamy, że poziomy czynnika grupującego są wyborem z populacji, w wyniku czego można oczekiwać, że w pewnym stopniu będą miały wspólne cechy. W związku z tym prognozy z modelu efektów mieszanych są tłumione w stosunku do prognoz z modeli ściśle ustalonych efektów.

seanv507
źródło
Co to jest przewidywanie, jeśli nie konkretny rodzaj wnioskowania?
shadowtalker,
0

Innym źródłem, które chciałbym polecić na ten temat, który wydaje mi się szczególnie pouczający, jest Wprowadzenie Davida Robinsona do empirycznych Bayesa .

Jego przykładem jest to, czy baseballista zdoła uderzyć następną rzuconą w niego piłką. Kluczową ideą jest to, że jeśli gracz istnieje od lat, ma całkiem jasny obraz tego, jak jest zdolny, a w szczególności można wykorzystać jego zaobserwowaną średnią mrugnięcia jako całkiem dobre oszacowanie prawdopodobieństwa sukcesu na następnym boisku.

I odwrotnie, zawodnik, który dopiero zaczął grać w lidze, nie ujawnił jeszcze wiele ze swojego prawdziwego talentu. Wydaje się więc, że rozsądnym wyborem jest skorygowanie oszacowania jego prawdopodobieństwa sukcesu w stosunku do ogólnej sumy, jeśli był szczególnie udany lub nieudany w pierwszych kilku grach, ponieważ jest to prawdopodobne, przynajmniej w pewnym stopniu, z powodu szczęścia lub pecha. .

Drobnym punktem jest to, że termin „pożyczanie” z pewnością nie jest używany w tym sensie, że coś, co zostało pożyczone, w pewnym momencie musiałoby zostać zwrócone ;-).

Christoph Hanck
źródło