Użyj AI lub sieci neuronowej do wykrywania logo

10

Próbuję wykryć logo kanału telewizyjnego w pliku wideo, więc po prostu biorąc pod uwagę .mp4wideo wejściowe , wykrywaj, czy to logo jest obecne w określonej klatce, powiedzmy w pierwszej klatce, czy nie.

Mamy to logo z góry (chociaż może nie być tego samego rozmiaru w% 100), a lokalizacja jest zawsze ustalona.

Mam już podejście oparte na dopasowywaniu wzorców. Ale to wymaga, aby wzór był w 100% taki sam. W tym celu chciałbym skorzystać z Deep Learning i Neural Network. Jak mogę to zrobić? Wierzę, że CNN może mieć wyższą wydajność?

Tina J
źródło
1
Witamy w AI! Świetny temat.
DukeZhou
1
@DukeZhou Tnx! Mam nadzieję, że otrzymam prawidłowe odpowiedzi ze wskazówkami do niektórych przykładowych kodów.
Tina J,

Odpowiedzi:

5

Aby wykonać rozpoznawanie obrazu, musisz znaleźć sposób na przedstawienie obrazu z pewnymi funkcjami.

Jedną z cech charakterystycznych dobrego algorytmu rozpoznawania obrazów jest jego zdolność do wykrywania istotnych obszarów, czyli regionów, które zawierają najwięcej informacji

Obecnie wiele uwagi poświęca się głębokiemu uczeniu się do klasyfikacji obrazów opartej na treści. Możesz osiągnąć przyzwoite wyniki, wdrażając głębokie uczenie się, mając trzy lub więcej warstw CNN, gdzie każda warstwa jest odpowiedzialna za wyodrębnienie jednej lub więcej cech obrazu.

Seth Simba
źródło
Dzięki. Sam nie jestem facetem z CNN. Ale czy jest jakiś wskaźnik do kodu źródłowego, który dał obraz logo, może wykryć, czy istnieje?
Tina J,
3
Hej, sprawdź DeepLogo na Github autorstwa Satoj Kovic. Jest napisany w Pythonie i używa CNN do rozpoznawania logo marki. Link zamieściłem poniżej. Twoje zdrowie. github.com/satojkovic/DeepLogo
Seth Simba
3

Ponieważ jest to wejście wideo, a logo są zwykle nieruchome, ponieważ są ułożone warstwami na żywo lub nagranych klatkach przez sprzęt lub oprogramowanie, zadanie nie jest trudne. Logo mają również zwykle ograniczone palety kolorów i ostre krawędzie. Funkcje ich czcionek, gdy zapisują słowa lub akronimy, są zwykle również spójne. Są to zasady ogólne, które można wykorzystać w głębokim uczeniu się.

Podobnie jak w przypadku innych podobnych pytań postawionych przez tego autora, kombinacja warstw LSTM i CNN może zostać przeszkolona w zakresie znajdowania i izolowania logo. W przypadku niektórych sztuczek graficznych obraz za logo można również odtworzyć z rozsądną dokładnością i niezawodnością z pikseli wokół logo za pomocą podobnego zestawu technik uczenia się.

To kilka punktów wyjścia do rozwoju.

Douglas Daseeco
źródło