Próbuję wykryć logo kanału telewizyjnego w pliku wideo, więc po prostu biorąc pod uwagę .mp4
wideo wejściowe , wykrywaj, czy to logo jest obecne w określonej klatce, powiedzmy w pierwszej klatce, czy nie.
Mamy to logo z góry (chociaż może nie być tego samego rozmiaru w% 100), a lokalizacja jest zawsze ustalona.
Mam już podejście oparte na dopasowywaniu wzorców. Ale to wymaga, aby wzór był w 100% taki sam. W tym celu chciałbym skorzystać z Deep Learning i Neural Network. Jak mogę to zrobić? Wierzę, że CNN może mieć wyższą wydajność?
Odpowiedzi:
Aby wykonać rozpoznawanie obrazu, musisz znaleźć sposób na przedstawienie obrazu z pewnymi funkcjami.
Jedną z cech charakterystycznych dobrego algorytmu rozpoznawania obrazów jest jego zdolność do wykrywania istotnych obszarów, czyli regionów, które zawierają najwięcej informacji
Obecnie wiele uwagi poświęca się głębokiemu uczeniu się do klasyfikacji obrazów opartej na treści. Możesz osiągnąć przyzwoite wyniki, wdrażając głębokie uczenie się, mając trzy lub więcej warstw CNN, gdzie każda warstwa jest odpowiedzialna za wyodrębnienie jednej lub więcej cech obrazu.
źródło
Ponieważ jest to wejście wideo, a logo są zwykle nieruchome, ponieważ są ułożone warstwami na żywo lub nagranych klatkach przez sprzęt lub oprogramowanie, zadanie nie jest trudne. Logo mają również zwykle ograniczone palety kolorów i ostre krawędzie. Funkcje ich czcionek, gdy zapisują słowa lub akronimy, są zwykle również spójne. Są to zasady ogólne, które można wykorzystać w głębokim uczeniu się.
Podobnie jak w przypadku innych podobnych pytań postawionych przez tego autora, kombinacja warstw LSTM i CNN może zostać przeszkolona w zakresie znajdowania i izolowania logo. W przypadku niektórych sztuczek graficznych obraz za logo można również odtworzyć z rozsądną dokładnością i niezawodnością z pikseli wokół logo za pomocą podobnego zestawu technik uczenia się.
To kilka punktów wyjścia do rozwoju.
źródło