Lista możliwych funkcji obrazu dla pobierania obrazów na podstawie zawartości

15

Próbuję znaleźć listę możliwych cech obrazu, takich jak kolor, zorientowane krawędzie i tak dalej, do pomiaru ich użyteczności w przypadku znalezienia takich samych / podobnych obiektów na obrazach. Czy ktoś zna taką listę lub przynajmniej niektóre funkcje?

jstr
źródło
To nie jest temat, ale czy CBIR może wyodrębnić funkcję z zestawu danych Open Image? Czy można wyodrębnić funkcję obrazu, nawet jeśli obraz nie jest zapisany na dysku lokalnym?
Quix0te,

Odpowiedzi:

25

Samo pole jest zbyt duże. Wątpię więc, czy możesz mieć tutaj pełną listę. Jednak MPEG 7 jest jednym z głównych wysiłków na rzecz standaryzacji tego obszaru. To, co jest tutaj zawarte, nie jest uniwersalne - ale przynajmniej najbardziej podstawowe.

Oto kilka kluczowych zestawów funkcji zidentyfikowanych w MPEG7 (naprawdę mogę mówić tylko o deskryptorach wizualnych, a inni nie widzą tego w pełnym zakresie).

Istnieją 4 kategorie deskryptorów wizualnych:

1. Deskryptory kolorów, które obejmują:
dominujący kolor,
układ kolorów (zasadniczo kolor podstawowy na zasadzie blok po bloku)
skalowalny kolor (zasadniczo histogram kolorów),
struktura kolorów (zasadniczo lokalny histogram kolorów)
i przestrzenie kolorów, aby zapewnić współdziałanie.

2. Deskryptory tekstur (patrz także to ), które obejmują:
Deskryptor przeglądania tekstur - który określa ziarnistość / zgrubność, regularność i kierunek. Homogeniczny deskryptor tekstury - oparty na banku filtrów Gabor. i
histogram krawędzi

3. Deskryptory kształtów, które obejmują:
Deskryptory oparte na regionach są skalarnymi atrybutami rozważanego kształtu - takimi jak powierzchnia, mimośrodowe itp. Oparte na konturach,
które rejestrują rzeczywiste charakterystyczne cechy kształtu i
deskryptory 3D

4. Deskryptory ruchu dla
ruchu kamery wideo (parametry ruchu kamery 3D)
Trajektoria ruchu (obiektów na scenie) [np. Wyodrębniona przez algorytmy śledzenia] Ruch parametryczny (np. Wektory ruchu, które umożliwiają opis ruchu sceny. Ale może być bardziej złożonymi modelami na różnych obiektach).
Aktywność, która jest bardziej deskryptorem semantycznym.


MPEG 7 nie definiuje „W jaki sposób są one wyodrębniane” - określa jedynie ich znaczenie i sposób ich reprezentowania / przechowywania. Istnieją więc badania nad tym, jak je wydobyć i wykorzystać.

Oto kolejny dobry artykuł, który daje wgląd w ten temat.

Ale tak, wiele z tych funkcji jest raczej podstawowych i być może więcej badań stworzy bardziej wyrafinowany (i złożony) zestaw funkcji.

Dipan Mehta
źródło
8

Ok, myślę, że znalazłem odpowiednią listę, po prostu szukając czegoś więcej. Jest artykuł Deselaers itp. które szwy były tym, czego szukałem!

jstr
źródło
6

Jest też książka, która zawiera zestaw artykułów związanych z tym tematem. To się nazywa Zasady wyszukiwania informacji wizualnych .

Geerten
źródło
Googleing o książkach nie ujawnia wielu pozytywnych recenzji. Więcej skarg niż pozytywów. Czy nadal uważasz, że jest to dobra referencja, a jeśli tak, to możesz powiedzieć nam, kiedy była dla Ciebie przydatna? :)
penelopa
Głównym powodem umieszczenia go tutaj nie jest to, że często go używałem, ale mój nauczyciel go polecił (i cenię jego opinię). Googleing na ten temat pokazuje, że to naprawdę pakiet papierów, a nie książka. Pokazuje także dość stary, ale jednak jedną z niewielu książek na ten temat. Dlatego uważam, że moja odpowiedź jest nadal odpowiednia.
Geerten,
3

@Dipan Mehta opisał deskryptory funkcji , których można użyć. Pozwólcie, że spróbuję teraz objąć drugą stronę monety, wymieniając niektóre metody wykrywania cech, które wydobywają cechy dobre dla CBIR .

Odniesieniem do moich badań CBIR były prace Sivica, Zissermana i Nistera, Steweniusa . Jest więcej aktualnych artykułów od tych autorów, ale prezentują one wszystkie istotne pomysły.

Twierdzą, że w celu wdrożenia skutecznych metod CBIR należy zastosować cechy uzupełniających się właściwości :

  • Kształt przystosowany regiony - wydają się być skoncentrowane na rogu-jak funkcje

    przykłady: narożniki Harrisa, Harris w wielu skalach, DoG (Różnica Gaussa - ale także reaguje na krawędzie!)

  • Regiony maksymalnie stabilne - zwykle są wyśrodkowane na obiektach przypominających kropelki

    przykłady: MSER (Maksymalnie stabilne regiony zewnętrzne), DoG

Co zaskakujące, Wikipedia oferuje również dobrą klasyfikację typów obiektów (detektorów), podając rodzaj obszarów zainteresowania, które wykrywają dla większości obecnie powszechnie używanych funkcji:

  • detektory krawędzi
  • detektory narożne
  • detektory kropel
  • detektory kalenicy

W większości aktualnych artykułów, które przeczytałem, przysięgam, że deskryptory SIFT (niezmienna transformacja cech) zmieniają się i są wystarczająco solidne, aby używać ich w połączeniu z wybranymi detektorami cech. Referencje obejmują:

  • już dostarczone linki
  • Mikołajczyk, Schmid zajmuje się porównywaniem lokalnych deskryptorów
  • Dahl ocenia kombinacje detektor-deskryptor

Uwaga! że dokumenty te nie dotyczą ściśle CBIR, ale są wykorzystywane jako odniesienia w pracach związanych z CBIR .

Na koniec warto wspomnieć, że skuteczne metody CBIR nie zależą tylko od zastosowanych detektorów funkcji i deskryptorów , ale także:

  • wydajna struktura wyszukiwania (kwantyzacja elementów wizualnych)
  • sposób konstruowania deskryptorów obrazu - w oparciu o wspólne cechy wizualne (lokalne deskryptory) lub przez porównanie globalnych deskryptorów obrazu (jest to bardzo nowy pomysł, więc obecnie nie ma odniesień)
  • miara odległości między deskryptorami obrazu

Ponadto, już odpowiedział na kilka pytań dotyczących CBIR na DSP i stackoverflow , oba są wraz z referencjami oraz wyjaśnienie i myślę, że mogą one być istotne, więc warto spojrzeć:

  • DSP: 1
  • przepływ stosu: 1 , 2
Penelopa
źródło