Często ludzie mówią o pożyczaniu lub udostępnianiu informacji w bayesowskich modelach hierarchicznych. Nie mogę uzyskać prostej odpowiedzi na temat tego, co to właściwie oznacza i czy jest to unikalne dla bayesowskich modeli hierarchicznych. W pewnym sensie mam pomysł: niektóre poziomy w twojej hierarchii mają wspólny parametr. Nie mam jednak pojęcia, jak to się przekłada na „pożyczanie informacji”.
Czy „pożyczanie informacji” / „wymiana informacji” to popularne słowo, które ludzie lubią wyrzucać?
Czy istnieje przykład z zamkniętymi postaciami bocznymi, który ilustruje to zjawisko udostępniania?
Czy jest to unikalne w analizie bayesowskiej? Ogólnie, kiedy widzę przykłady „pożyczania informacji”, są to po prostu mieszane modele. Być może nauczyłem się tych modeli w staromodny sposób, ale nie widzę dzielenia się.
Nie jestem zainteresowany rozpoczęciem filozoficznej debaty na temat metod. Jestem tylko ciekawy użycia tego terminu.
Odpowiedzi:
Jest to termin, który pochodzi konkretnie z empirycznego Bayesa (EB), w rzeczywistości koncepcja, do której się odnosi, nie istnieje w prawdziwym wnioskowaniu bayesowskim. Pierwotnym terminem była „siła zaciągania pożyczek”, która została ukuta przez Johna Tukeya w latach 60. XX wieku, a następnie popularyzowana przez Bradleya Efrona i Carla Morrisa w szeregu artykułów statystycznych na temat paradoksu Stein'a i parametrycznego EB w latach 70. i 80. XX wieku. Wiele osób używa teraz „pożyczania informacji” lub „udostępniania informacji” jako synonimów tego samego pojęcia. Powodem, dla którego możesz to usłyszeć w kontekście modeli mieszanych, jest to, że najczęstsze analizy modeli mieszanych mają interpretację EB.
EB ma wiele zastosowań i ma zastosowanie do wielu modeli statystycznych, ale zawsze kontekstem jest to, że masz dużą liczbę (ewentualnie niezależnych) przypadków i próbujesz oszacować konkretny parametr (taki jak średnia lub wariancja) w każdym przypadku. W wnioskowaniu bayesowskim wnioskujesz później o wnioskowaniu na temat parametru na podstawie zarówno danych obserwowanych dla każdego przypadku, jak i wcześniejszego rozkładu dla tego parametru. W wnioskowaniu EB wcześniejszy rozkład parametru jest szacowany na podstawie całego zbioru przypadków danych, po czym wnioskowanie przebiega jak w przypadku wnioskowania bayesowskiego. Dlatego przy szacowaniu parametru dla konkretnego przypadku używasz zarówno danych dla tego przypadku, jak i szacunkowego wcześniejszego rozkładu, a ten ostatni reprezentuje „informację” lub „siłę”
Teraz możesz zobaczyć, dlaczego EB ma „pożyczać”, a prawdziwy Bayes nie. W prawdziwym Bayesie wcześniejsza dystrybucja już istnieje, więc nie trzeba jej błagać ani pożyczać. W EB wcześniejszy rozkład został utworzony z samych zaobserwowanych danych. Kiedy wyciągamy wnioski na temat konkretnego przypadku, wykorzystujemy wszystkie zaobserwowane informacje z tego przypadku i trochę informacji z każdego z pozostałych przypadków. Mówimy, że jest „pożyczony”, ponieważ informacje są przekazywane, gdy przechodzimy dalej, aby wyciągnąć wnioski na temat następnej sprawy.
Idea EB i „pożyczania informacji” jest szeroko stosowana w genomice statystycznej, gdy każdy „przypadek” jest zwykle genem lub cechą genomową (Smyth, 2004; Phipson i in., 2016).
Bibliografia
Efron, Bradley i Carl Morris. Paradoks Steina w statystyce. Scientific American 236, no. 5 (1977): 119–127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Modele liniowe i empiryczne metody Bayesa do oceny ekspresji różnicowej w eksperymentach mikromacierzy. Zastosowania statystyczne w genetyce i biologii molekularnej Tom 3, wydanie 1, artykuł 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS i Smyth, GK (2016). Solidne oszacowanie hiperparametrów chroni przed genami hiperzmiennymi i poprawia moc wykrywania różnicowej ekspresji. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
źródło
Rozważ prosty problem, taki jak oszacowanie średnich z wielu grup. Jeśli twój model traktuje je jako całkowicie niezwiązane, to jedyne informacje o każdym środku to informacje z tej grupy. Jeśli twój model traktuje swoje środki jako nieco powiązane (na przykład w niektórych modelach z efektami mieszanymi), wówczas szacunki będą bardziej precyzyjne, ponieważ informacje z innych grup informują (regularyzują, kurczą się w kierunku wspólnej średniej) oszacowania dla danej grupy. To przykład „informacji o pożyczaniu”.
Pojęcie pojawia się w pracach aktuarialnych związanych z wiarygodnością (niekoniecznie z tym konkretnym terminem „zaciągania pożyczek”, chociaż zaciąganie pożyczek w tym sensie jest wyraźnie określone we wzorach); to sięga długą drogę, przynajmniej sto lat temu, a wyraźne prekursory sięgają połowy XIX wieku. Na przykład patrz Longley-Cook, LH (1962) Wprowadzenie do teorii wiarygodności PCAS, 49, 194-221.
Oto Whitney, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):
Chociaż nie ma tutaj terminu pożyczanie, wyraźnie widać, że można wykorzystać informacje na poziomie grupy do poinformowania nas o tym warsztacie mechanicznym . [Pojęcia pozostają niezmienione, kiedy „siła zaciągania kredytu” i „informacja o zaciągnięciu pożyczki” zaczynają być stosowane w tej sytuacji]
źródło
Wreszcie modelowanie wielopoziomowe to nie tylko mieszane efekty, chociaż są one najczęściej. Każdy model, na który wpływ mają parametry nie tylko priory i dane, ale także inne nieznane parametry, można nazwać modelem wielopoziomowym. Oczywiście jest to bardzo elastyczny zestaw modeli, ale można go napisać od zera i dopasować przy minimalnym nakładzie pracy przy użyciu narzędzi takich jak Stan, NIMBLE, JAGS itp. W tym zakresie nie jestem pewien, czy powiedziałbym, że wielopoziomowy modelowanie to „hype”; w zasadzie możesz napisać dowolny model, który można przedstawić jako ukierunkowany wykres acyklicznyi dopasuj go natychmiast (zakładając, że ma to rozsądny czas działania). Daje to o wiele większą moc i potencjalną kreatywność niż tradycyjne wybory (tj. Pakiety modeli regresji), ale nie wymaga budowania od podstaw całego pakietu R, aby dopasować nowy typ modelu.
źródło
Zakładam, że ponieważ oznaczyłeś uczenie maszynowe, że jesteś zainteresowany predykcją, a nie wnioskowaniem (uważam, że zgadzam się z odpowiedzią @Glen_b, ale tłumaczę tylko na ten kontekst / słownictwo)
Twierdziłbym, że w tym przypadku jest to modne słowo. Uregulowany model liniowy ze zmienną grupy pożyczy informacje: prognoza na poziomie indywidualnym będzie kombinacją średniej grupy i indywidualnego efektu. Jednym ze sposobów myślenia o regularyzacji l1 / l2 jest to, że przypisuje ona współczynnik kosztu redukcji całkowitego błędu, ponieważ zmienna grupowa wpływa na więcej próbek niż zmienna indywidualna, będzie presja na oszacowanie efektu grupowego, pozostawiając mniejsze odchylenie od efekt grupowy dla każdej zmiennej indywidualnej.
W przypadku pojedynczych punktów z wystarczającą ilością danych indywidualny efekt będzie „silny”, a dla tych z małą ilością danych efekt będzie słaby.
Myślę, że najłatwiej to zobaczyć, biorąc pod uwagę regularyzację L1 i 3 osoby z tej samej grupy z takim samym skutkiem. Problem nieregularny ma nieskończoną liczbę rozwiązań, a regularyzacja daje unikalne rozwiązanie.
Przypisanie całego efektu do współczynnika grupy ma najniższą normę l1, ponieważ potrzebujemy tylko 1 wartości, aby objąć 3 osoby. I odwrotnie, przypisanie całego efektu do poszczególnych współczynników ma najgorsze, mianowicie 3-krotność normy 11 przypisania efektu do współczynnika grupowego.
Zauważ, że możemy mieć tyle hierarchii, ile chcemy, i na interakcje wpływa podobnie: regularyzacja będzie wypychać efekty do głównych zmiennych, a nie rzadsze interakcje.
Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - połączone przez @ IsabellaGhement podaje wycenę siły zaciągania pożyczek
„Ten efekt jest czasem nazywany skurczem, ponieważ bardziej ekstremalne skurczenie wartości jest zbliżane do bardziej rozsądnej, bardziej średniej wartości. W książce lme4 Douglas Bates stanowi alternatywę dla skurczu [nazwa]”
źródło
Innym źródłem, które chciałbym polecić na ten temat, który wydaje mi się szczególnie pouczający, jest Wprowadzenie Davida Robinsona do empirycznych Bayesa .
Jego przykładem jest to, czy baseballista zdoła uderzyć następną rzuconą w niego piłką. Kluczową ideą jest to, że jeśli gracz istnieje od lat, ma całkiem jasny obraz tego, jak jest zdolny, a w szczególności można wykorzystać jego zaobserwowaną średnią mrugnięcia jako całkiem dobre oszacowanie prawdopodobieństwa sukcesu na następnym boisku.
I odwrotnie, zawodnik, który dopiero zaczął grać w lidze, nie ujawnił jeszcze wiele ze swojego prawdziwego talentu. Wydaje się więc, że rozsądnym wyborem jest skorygowanie oszacowania jego prawdopodobieństwa sukcesu w stosunku do ogólnej sumy, jeśli był szczególnie udany lub nieudany w pierwszych kilku grach, ponieważ jest to prawdopodobne, przynajmniej w pewnym stopniu, z powodu szczęścia lub pecha. .
Drobnym punktem jest to, że termin „pożyczanie” z pewnością nie jest używany w tym sensie, że coś, co zostało pożyczone, w pewnym momencie musiałoby zostać zwrócone ;-).
źródło