Analogi wykrywania skompresowanego

22

xRnA x A R n R n A kx0<kAxARnRnAk- rzadkie z tak małym jak . Mogę nie mieć najlepiej znanych parametrów, ale to jest ogólny pomysł.R O ( k n o ( 1 ) )xRO(kno(1))

Moje pytanie brzmi: czy istnieją podobne zjawiska w innych ustawieniach? Chodzi mi o to, że sygnał wejściowy może pochodzić z jakiejś „rodziny o niskiej złożoności” według miary złożoności, która niekoniecznie jest rzadka. Chcemy wtedy algorytmów kompresji i dekompresji, niekoniecznie map liniowych, które są wydajne i poprawne. Czy takie wyniki są znane w innym kontekście? Jak zgadłbyś w przypadku bardziej „ogólnej” teorii skompresowanego wykrywania?

(Oczywiście w zastosowaniach kompresji, liniowość i rzadkość są ważnymi kwestiami. Pytanie, które tu zadaję, jest bardziej „filozoficzne”.)

arnab
źródło

Odpowiedzi:

21

Twoje pytanie dotyczy „dokładnego” problemu odzyskiwania (chcemy odzyskać k-rzadki x dokładnie podany Ax ). W dalszej części skupię się na „solidnej” wersji, w której x jest wektorem arbitralnym, a celem algorytmu odzyskiwania jest znalezienie przybliżenia k rzadkiego przybliżenia x do x (to rozróżnienie ma znaczenie w przypadku niektórych dyskusji poniżej ). Formalnie chcesz rozwiązać następujący problem (nazwij go P1 ):

Projekt A taki, że dla każdego x można odzyskać x gdzie xxL

minx"Cxx"R , gdzie obejmuje wszystkie wektory k- rzadkie.kx"k

Tutaj i oznacza lewą i prawą normę, a jest „współczynnikiem przybliżenia”. Możliwe są różne opcje dla i R C LR 2 1LRCLR . Jeśli chodzi o konkretność, można pomyśleć, że oba są równe lub ; może być jednak bardziej niechlujny.21

Teraz niektóre analogi i uogólnienia.

Podstawa arbitrażowa. Po pierwsze, zauważ, że każdy schemat spełniający powyższą definicję może zostać zastosowany do rozwiązania bardziej ogólnego problemu, w którym odzyskany sygnał jest rzadki na podstawie arbitralnej (powiedzmy falki Fouriera), a nie tylko standardowej. Niech będzie macierzą podstawową. Formalnie wektor jest rzadki w podstawie jeśli gdzie jest rzadki. Teraz możemy rozważyć ogólny problem (nazwijmy go ):xBukBu=BvvkPB

Zaprojektuj tak, że biorąc uwagę , można odzyskać gdzieABABxxxxL

minx"Cxx"R , w którym przebiega od wszystkich wektorów, które -sparse w .x"B.kB

Można zredukować ten problem do wcześniejszego problemu , zmieniając podstawę, tj. Stosując macierz pomiarową . Jeśli mamy rozwiązanie w normie (tj. Lewa i prawa norma równa ), otrzymujemy również rozwiązanie w normie 2 . Jeśli P 1 stosuje inne normy, rozwiązujemy PA B = A B - 1 P 1 2 2P1AB=AB1P122PB2P1 w tych normach zmodyfikowanych przez zmianę podstawy.PB

Jedno zastrzeżenie w powyżej jest to, że w powyższym podejściem, musimy znać macierz w celu zdefiniowania A B . Być może zaskakująco, jeśli pozwolimy randomizacji ( B nie jest ustalona, ale zamiast wybierane losowo), jest możliwe do wyboruBABAB ze stałym rozkładzie, który jest niezależny od BABB . Jest to tak zwana własność uniwersalności .

Słowniki Kolejne uogólnienie można uzyskać, porzucając wymóg, że jest podstawą. Zamiast tego możemy pozwolić B mieć więcej wierszy niż kolumn. Takie matryce nazywane są (nadmiernie) słownikami. Jednym z popularnych przykładów jest macierz tożsamości na górze matrycy Fouriera. Innym przykładem jest macierz, w której rzędy są charakterystycznymi wektorami wszystkich przedziałów w {1 ... n}; w tym przypadku zestaw { B u : u jest k-rzadkiBBBu:u is k-sparse } zawiera wszystkie „ histogramy”, tzn. funkcje stałej cząstkowej w ciągu {1 ... n} z co najwyżejk części.k

O ile mi wiadomo, nie ma ogólnej teorii na takie arbitralne słowniki, chociaż sporo pracy poświęcono temu tematowi. Patrz np. Candes-Eldar-Needell'10 lub Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .

Szkicowanie histogramów było szeroko badane w streamingu i literaturze bazy danych, np. Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 lub Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .

Modele (wspomniany również przez Arnab). Innym uogólnieniem jest wprowadzenie ograniczeń w wzorach rzadkości. Niech będzie podzbiorem k- podzbiorów {1 ... n}. Mówimy, że u jest M -sparse jeśli wsparcie u jest zawarty w elemencie M . Możemy teraz postawić problem (nazwijmy go PMkuMuM ):PM

Projekt taki, że dla każdego x można odzyskać x ′, gdzie x - x LAxxxxL

, gdzie x mieści się we wszystkich zakresachminx"Cxx"Rx"wektory M- rzadkie.M

Na przykład elementy mogą mieć postać I 1I k , gdzie każdy I i odpowiada jednemu „podblokowi” o wartości {1 ... n} o pewnej długości b , tj. I i jest formularza {jb + 1 ... (j + 1) b} dla niektórych j . Jest to tak zwany model „rzadkości bloku”. MI1IkIibIij

Zaletą modeli jest to, że można zaoszczędzić na liczbie pomiarów w porównaniu z ogólnym podejściem rozproszenia. Jest tak, ponieważ przestrzeń rzadkich sygnałów M jest mniejsza niż przestrzeń wszystkich kkMk sygnałów rzadkich , więc macierz musi zachować mniej informacji. Aby uzyskać więcej informacji, zobacz A Baraniuk-Cevher-Duarte-Hegde, Transakcje IEEE dotyczące teorii informacji, 2010 lub Eldar-Mishali, Transakcje IEEE dotyczące teorii informacji, 2009 .

Mam nadzieję że to pomoże.

Piotr
źródło
11

Istnieje uogólnienie wykrywania skompresowanego do ustawienia nieprzemiennego zwanego uzupełnianiem macierzy . W dokładnym ustawieniu, podane są nieznane macierzy M , które zamiast sparsity, jest wiadomo, że ma niski stopień r « m , n . Twoim celem jest zrekonstruowanie r osobliwych wartości i osobliwych wektorów tej macierzy poprzez próbkowanie tylko współczynników ˜ O ( r m + r n ) macierzy, a nie O ( m n )m×nMrm,nrO~(rm+rn)O(mn) jak jest to wymagane w najgorszym przypadku.

Jeśli wektory osobliwe są wystarczająco „niespójne” (z grubsza, niezbyt dobrze wyrównane) z podstawą, z której próbkujesz elementy macierzy, możesz z dużym prawdopodobieństwem odnieść sukces, rozwiązując program wypukły, podobny do standardowego wykrywania skompresowanego. W takim przypadku musisz zminimalizować 1-normę Schattena, tj. Sumę wartości pojedynczych.

Ten problem ma również wiele zastosowań, na przykład do dawania rekomendacji książkowych klientowi internetowego księgarni, znając tylko kilka ocen, które wygenerowali inni klienci. W tym kontekście wiersze i kolumny są oznaczone odpowiednio przez książki i klientów. Kilka widocznych elementów matrycy to oceny klientów książek, które wcześniej kupili. Oczekuje się, że macierz M będzie niskiej rangi, ponieważ uważamy, że zazwyczaj tylko kilka podstawowych czynników wpływa na nasze preferencje. Wypełniając MMMM , sprzedawca może dokładnie przewidzieć, jakich książek prawdopodobnie będziesz potrzebować.

Dobrym początkiem jest ten artykuł Candés i Recht, Dokładne uzupełnienie matrycy poprzez optymalizację wypukłą . Istnieje również naprawdę fajne uogólnienie, w którym wolno próbkować w dowolny sposób dla przestrzeni macierzy. W tym artykule Davida Grossa, Odzyskiwanie macierzy niskiej rangi z kilku współczynników w dowolnej podstawie wykorzystuje to uogólnienie, aby znacznie uprościć dowody ukończenia macierzy, a dla niektórych zasad można również usunąć założenie niespójności. Ten dokument zawiera również najlepsze dotychczasowe ograniczenia dotyczące złożoności próbkowania. Próbkowanie w arbitralny sposób może wydawać się dziwne, ale w rzeczywistości jest to całkiem naturalne w ustawieniach mechaniki kwantowej, patrz na przykład ten artykuł, Tomografia stanu kwantowego za pomocą wykrywania skompresowanego .

Steve Flammia
źródło
9

Istnieje oparte na rozmaitości skompresowane wykrywanie, w którym warunek rzadkości jest zastępowany warunkiem, że dane leżą w niskowymiarowym podfolderze naturalnej przestrzeni sygnałów. Zauważ, że rzadkość można sformułować jako leżącą na określonym rozmaitości (w rzeczywistości siecznej odmianie).

Zobacz na przykład ten artykuł i odniesienia we wstępie. (Co prawda nie wiem, czy ten artykuł jest reprezentatywny dla tego obszaru - jestem bardziej zaznajomiony z pokrewnym tematem różnorodnych klasyfikatorów a la Niyogi-Smale-Weinberger .)

Joshua Grochow
źródło
ciekawy papier. Nie wiedziałem o tej pracy.
Suresh Venkat
nawiasem mówiąc, jak zauważył Candes w swoim zaproszonym wykładzie SODA 10, rzadkość nie jest tym samym, co bycie mało wymiarowym. dość łatwo jest mieć jedno bez drugiego
Suresh Venkat
Dzięki! Jedną z interesujących prac cytowanych w powiązanym artykule jest „Wykrywanie kompresji na podstawie modelu”. To pokazuje, jak sądzę, że liczbę pomiarów można zmniejszyć nawet bardziej niż w zwykłym CS, jeśli obiecuje się, że sygnał wejściowy będzie pochodził z jakiegoś małego zestawu podprzestrzeni K-wymiarowych.
arnab
8

Przypuszczam, że na poziomie ogólności, w którym postawiłem pytanie, artykuł „Kompresja źródeł próbkowania” Trevisana, Vadhana i Zuckermana (2004) również stanowi jedną z możliwych odpowiedzi. Pokazują, że w wielu przypadkach, jeśli źródło ciągów wejściowych ma małą złożoność (np. Możliwość próbkowania przez maszyny w przestrzeni logów), wówczas można kompresować i dekompresować w czasie wielomianowym, aby uzyskać długość stałej dodatkowej z dala od entropii źródła.

Nie wiem jednak, czy wykrywanie kompresyjne można zastosować w jakiejś większej teorii kompresji.

arnab
źródło
3

Jednym z analogów wykrywania kompresyjnego jest uczenie maszynowe, gdy próbujesz oszacować wektor wielkogabarytowy (np. W klasyfikacji / regresji) na podstawie bardzo małej próby. Aby poradzić sobie z nieokreślonymi układami równań liniowych w takich ustawieniach, zwykle wymusza się rzadkość (poprzez karę 10 lub 10) na uczonym wektorze ciężaru. Aby zobaczyć połączenie, rozważ następujący problem klasyfikacji / regresji z uczenia maszynowego:

Reprezentuj N przykładów D wymiarów każdy (D >> N) jako macierz NxD X. Reprezentuj N odpowiedzi (po jednej dla każdego przykładu) jako wektor Nx1 Y. Celem jest rozwiązanie wektora thex Dx1 za pomocą następującego równania : Y = X * theta

Oto analogia tego problemu do wykrywania ściskającego (CS): chcesz oszacować / zmierzyć theta, który jest wektorem D (podobnym do nieznanego „sygnału” w CS). Aby to oszacować, używasz macierzy X (podobnej do macierzy projektowej w CS) i pomiarów N 1-D Y (podobnych do skompresowanego sygnału w CS, ponieważ D >> N).

spinxl39
źródło