Twoje pytanie dotyczy „dokładnego” problemu odzyskiwania (chcemy odzyskać k-rzadki x dokładnie podany Ax ). W dalszej części skupię się na „solidnej” wersji, w której x jest wektorem arbitralnym, a celem algorytmu odzyskiwania jest znalezienie przybliżenia k rzadkiego przybliżenia x′ do x (to rozróżnienie ma znaczenie w przypadku niektórych dyskusji poniżej ). Formalnie chcesz rozwiązać następujący problem (nazwij go P1 ):
Projekt A taki, że dla każdego x można odzyskać x′ gdzie
∥x−x′∥L≤
minx"C∥x−x"∥R , gdzie obejmuje wszystkie wektory k- rzadkie.kx"k
Tutaj i oznacza lewą i prawą normę, a jest „współczynnikiem przybliżenia”. Możliwe są różne opcje dla i ‖ ⋅ ‖ R C ‖ ⋅ ‖ L ‖ ⋅ ‖ R ℓ 2 ℓ 1∥⋅∥L∥⋅∥RC∥⋅∥L∥⋅∥R . Jeśli chodzi o konkretność, można pomyśleć, że oba są równe lub ; może być jednak bardziej niechlujny.ℓ2ℓ1
Teraz niektóre analogi i uogólnienia.
Podstawa arbitrażowa. Po pierwsze, zauważ, że każdy schemat spełniający powyższą definicję może zostać zastosowany do rozwiązania bardziej ogólnego problemu, w którym odzyskany sygnał jest rzadki na podstawie arbitralnej (powiedzmy falki Fouriera), a nie tylko standardowej. Niech będzie macierzą podstawową. Formalnie wektor jest rzadki w podstawie jeśli gdzie jest rzadki. Teraz możemy rozważyć ogólny problem (nazwijmy go ):x′BukBu=BvvkPB
Zaprojektuj tak, że biorąc uwagę , można odzyskać gdzieABABxx′∥x−x′∥L≤
minx"C∥x−x"∥R , w którym przebiega od wszystkich wektorów, które -sparse w .x"B.kB
Można zredukować ten problem do wcześniejszego problemu , zmieniając podstawę, tj. Stosując macierz pomiarową . Jeśli mamy rozwiązanie w normie (tj. Lewa i prawa norma równa ), otrzymujemy również rozwiązanie w normie ℓ 2 . Jeśli P 1 stosuje inne normy, rozwiązujemy PA B = A B - 1 P 1 ℓ 2 ℓ 2P1AB=AB−1P1ℓ2ℓ2PBℓ2P1 w tych normach zmodyfikowanych przez zmianę podstawy.PB
Jedno zastrzeżenie w powyżej jest to, że w powyższym podejściem, musimy znać macierz w celu zdefiniowania A B . Być może zaskakująco, jeśli pozwolimy randomizacji ( B nie jest ustalona, ale zamiast wybierane losowo), jest możliwe do wyboruBABAB ze stałym rozkładzie, który jest niezależny od BABB . Jest to tak zwana własność uniwersalności .
Słowniki Kolejne uogólnienie można uzyskać, porzucając wymóg, że jest podstawą. Zamiast tego możemy pozwolić B mieć więcej wierszy niż kolumn. Takie matryce nazywane są (nadmiernie) słownikami. Jednym z popularnych przykładów jest macierz tożsamości na górze matrycy Fouriera. Innym przykładem jest macierz, w której rzędy są charakterystycznymi wektorami wszystkich przedziałów w {1 ... n}; w tym przypadku zestaw { B u : u jest k-rzadkiBBBu:u is k-sparse } zawiera wszystkie „ histogramy”, tzn. funkcje stałej cząstkowej w ciągu {1 ... n} z co najwyżejk części.k
O ile mi wiadomo, nie ma ogólnej teorii na takie arbitralne słowniki, chociaż sporo pracy poświęcono temu tematowi. Patrz np.
Candes-Eldar-Needell'10 lub
Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .
Szkicowanie histogramów było szeroko badane w streamingu i literaturze bazy danych, np.
Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 lub
Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .
Modele (wspomniany również przez Arnab). Innym uogólnieniem jest wprowadzenie ograniczeń w wzorach rzadkości. Niech będzie podzbiorem k- podzbiorów {1 ... n}. Mówimy, że u jest M -sparse jeśli wsparcie u jest zawarty w elemencie M . Możemy teraz postawić problem (nazwijmy go PMkuMuM ):PM
Projekt taki, że dla każdego x można odzyskać x ′, gdzie ‖ x - x ′ ‖ L ≤Axx′∥x−x′∥L≤
, gdzie x ” mieści się we wszystkich zakresachminx"C∥x−x"∥Rx"wektory M- rzadkie.M
Na przykład elementy mogą mieć postać I 1 ∪ … ∪ I k , gdzie każdy I i odpowiada jednemu „podblokowi” o wartości {1 ... n} o pewnej długości b , tj. I i jest formularza {jb + 1 ... (j + 1) b} dla niektórych j . Jest to tak zwany model „rzadkości bloku”. MI1∪…∪IkIibIij
Zaletą modeli jest to, że można zaoszczędzić na liczbie pomiarów w porównaniu z ogólnym podejściem rozproszenia. Jest tak, ponieważ przestrzeń rzadkich sygnałów M jest mniejsza niż przestrzeń wszystkich kkMk sygnałów rzadkich , więc macierz musi zachować mniej informacji. Aby uzyskać więcej informacji, zobacz
A Baraniuk-Cevher-Duarte-Hegde, Transakcje IEEE dotyczące teorii informacji, 2010 lub
Eldar-Mishali, Transakcje IEEE dotyczące teorii informacji, 2009 .
Mam nadzieję że to pomoże.
Przypuszczam, że na poziomie ogólności, w którym postawiłem pytanie, artykuł „Kompresja źródeł próbkowania” Trevisana, Vadhana i Zuckermana (2004) również stanowi jedną z możliwych odpowiedzi. Pokazują, że w wielu przypadkach, jeśli źródło ciągów wejściowych ma małą złożoność (np. Możliwość próbkowania przez maszyny w przestrzeni logów), wówczas można kompresować i dekompresować w czasie wielomianowym, aby uzyskać długość stałej dodatkowej z dala od entropii źródła.
Nie wiem jednak, czy wykrywanie kompresyjne można zastosować w jakiejś większej teorii kompresji.
źródło
Jednym z analogów wykrywania kompresyjnego jest uczenie maszynowe, gdy próbujesz oszacować wektor wielkogabarytowy (np. W klasyfikacji / regresji) na podstawie bardzo małej próby. Aby poradzić sobie z nieokreślonymi układami równań liniowych w takich ustawieniach, zwykle wymusza się rzadkość (poprzez karę 10 lub 10) na uczonym wektorze ciężaru. Aby zobaczyć połączenie, rozważ następujący problem klasyfikacji / regresji z uczenia maszynowego:
Reprezentuj N przykładów D wymiarów każdy (D >> N) jako macierz NxD X. Reprezentuj N odpowiedzi (po jednej dla każdego przykładu) jako wektor Nx1 Y. Celem jest rozwiązanie wektora thex Dx1 za pomocą następującego równania : Y = X * theta
Oto analogia tego problemu do wykrywania ściskającego (CS): chcesz oszacować / zmierzyć theta, który jest wektorem D (podobnym do nieznanego „sygnału” w CS). Aby to oszacować, używasz macierzy X (podobnej do macierzy projektowej w CS) i pomiarów N 1-D Y (podobnych do skompresowanego sygnału w CS, ponieważ D >> N).
źródło
Zobacz: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf
źródło