Obrazy niekwadratowe do klasyfikacji obrazów

9

Mam zestaw danych z szerokimi obrazami: 1760 x 128. Przeczytałem już tutoriale i książki, a większość z nich stwierdza, że ​​obrazy wejściowe powinny być kwadratowe, a jeśli nie, są one przekształcane w kwadrat, aby być szkolonym w już wyszkolonych (na obrazach kwadratowych) cnns. Czy istnieje sposób wytrenowania cnn dla obrazów innych niż kwadratowe, czy powinienem szukać innej opcji jako wypełnienia?

Voila
źródło

Odpowiedzi:

4

Istnieje kilka sposobów rozwiązania problemu w zależności od klasyfikatora. Przesuwanie systemu Windows to metoda, którą znam najlepiej, jest stosowana do metod sieci neuronowych. Ta metoda polega na zrobieniu małego podobrazu i przesuwaniu go w górę iw dół z pewnymi nakładkami. Niektóre problemy obejmują znalezienie optymalnych parametrów przesunięcia i problemy z wieloma skalami.

Ostateczne wykrycie jest zwykle określane na podstawie stopnia pewności klasyfikatora, że ​​każdy z podobrazów należy do tej klasy: na przykład większość głosów, całkowite prawdopodobieństwo lub całkowity dystans od granicy decyzji. Poniżej wymieniłem niektóre materiały, pierwszy dotyczy metody klasyfikatora HOG, ale pojęcia są takie same.

  1. Wykrywanie obiektów Przesuwne okna
  2. Wykrywanie kategorii obiektu: Przesuwne okna
  3. OverFeat Zintegrowane rozpoznawanie, lokalizacja i wykrywanie za pomocą sieci konwergentnych
Joseph Santarcangelo
źródło
2

Nie powinno to powodować żadnych problemów, jeśli używasz CNN. Zrobiłem CNN do rozpoznawania twarzy, a ponieważ twarze mają zwykle około 70% szerokości i wysokości, użyłem zdjęć treningowych o wymiarach 80 x 100 pikseli (trochę dodatkowej szerokości w przypadku, gdy głowa była pod kątem). Twoje filtry powinny jednak nadal być kwadratowe.

Wszystkie te zmiany polegałyby na tym, że teraz musisz śledzić szerokość i wysokość dla swoich map aktywacyjnych / zbiorczych zamiast jednej wartości określającej rozmiar. Na przykład -

Wejściowy obraz 80 x 100 Zastosuj filtr splotu 5 x 5 daje mapę aktywacji przy 76 x 96 Zastosowanie puli zastosowania 2 x 2 daje mapę połączonych aktywacji przy 38 x 48

Frobot
źródło