Jest to matematyczne wyrażenie do wykrywania narożników Harrisa:
Ale mam następujące wątpliwości:
- Jakie jest fizyczne znaczenie i ? Wiele źródeł powiedzieć, że jest to wielkość, która przez okno przesunięte. Ile więc przesuwa się okno? Jeden piksel czy dwa piksele?
- Czy okno sumuje się nad pozycjami pikseli?
- Zakładając po prostu, że , jest intensywnością pojedynczego piksela w lub sumą intensywności w oknie ze środkiem w ?
- Według wiki twierdzą, że obraz jest 2D, oznaczony przez I, a następnie prosi o rozważenie poprawki obrazu na obszarze , a następnie używa notacji
Trudno mi zrozumieć matematyczne wyjaśnienie. Czy ktoś ma pomysł?
image-processing
opencv
linear-algebra
rotating_image
źródło
źródło
Odpowiedzi:
Znaczenie tej formuły jest naprawdę bardzo proste. Wyobraź sobie, że robisz dwa małe obszary obrazu o tym samym rozmiarze, niebieski i czerwony:
Funkcja okna równa się 0 poza czerwonym prostokątem (dla uproszczenia możemy założyć, że okno jest po prostu stałe w obrębie czerwonego prostokąta). Funkcja okna wybiera więc piksele, które chcesz obejrzeć, i przypisuje względne wagi każdemu pikselowi. (Najczęstsze jest okno Gaussa, ponieważ jest obrotowo symetryczne, wydajne do obliczania i podkreśla piksele w pobliżu środka okna.) Niebieski prostokąt jest przesunięty o (u, v).
Następnie obliczasz sumę do kwadratu różnicy między częściami obrazu oznaczonymi na czerwono i niebiesko, tzn. Odejmujesz je piksel po pikselu, kwadrat różnicujesz i sumujesz wynik (zakładając, dla uproszczenia, że okno = 1 w obszarze, którego szukamy w). Daje to jedną liczbę dla każdego możliwego (u, v) -> E (u, v).
Zobaczmy, co się stanie, jeśli obliczymy to dla różnych wartości u / v:
Najpierw zachowaj v = 0:
Nie powinno to być zaskoczeniem: różnica między częściami obrazu jest najniższa, gdy przesunięcie (u, v) między nimi wynosi 0. Wraz ze wzrostem odległości między dwiema łatami wzrasta również suma kwadratów różnic.
Utrzymanie u = 0:
Fabuła wygląda podobnie, ale suma kwadratowych różnic między dwiema częściami obrazu jest znacznie mniejsza po przesunięciu niebieskiego prostokąta w kierunku krawędzi.
Pełny wykres E (u, v) wygląda następująco:
Fabuła wygląda trochę jak „kanion”: jest tylko niewielka różnica, jeśli przesuniesz obraz w kierunku kanionu. Jest tak, ponieważ ta łatka obrazu ma dominującą (pionową) orientację.
To samo możemy zrobić dla innej poprawki obrazu:
Tutaj wykres E (u, v) wygląda inaczej:
Bez względu na to, w jaki sposób zmienisz łatkę, zawsze wygląda ona inaczej.
Tak więc kształt funkcji E (u, v) mówi nam coś o łatce obrazu
Zwykle w ogóle nie obliczasz E (u, v). Interesuje Cię tylko jego kształt w sąsiedztwie (u, v) = (0,0). Więc po prostu chcesz rozszerzenia Taylora E (u, v) w pobliżu (0,0), co całkowicie opisuje jego „kształt”.
Z matematycznego punktu widzenia bardziej elegancki jest zakres sumowania dla wszystkich pikseli. Praktycznie rzecz biorąc, nie ma sensu sumowanie pikseli, gdy okno ma wartość 0.
źródło