Usiłuję jasno zrozumieć różnicę między klasyfikacją opartą na pikselach i obiektach w dziedzinie teledetekcji i mam nadzieję, że ktoś z tej społeczności zapewni wgląd.
W oparciu o informacje, które do tej pory posiadam, moje obecne rozumowanie jest następujące:
Klasyfikacja oparta na pikselach : Klasyfikacja odbywa się na poziomie jednego piksela, z wykorzystaniem tylko informacji spektralnych dostępnych dla tego pojedynczego piksela (tzn. Wartości pikseli w danej lokalizacji są ignorowane). W tym sensie każdy piksel reprezentowałby przykład szkoleniowy dla algorytmu klasyfikacji, a ten przykład szkoleniowy miałby postać n-wymiarowego wektora, gdzie n była liczbą pasm widmowych w danych obrazu. Odpowiednio wyuczony algorytm klasyfikacji generowałby prognozę klasy dla każdego pojedynczego piksela na obrazie.
Klasyfikacja obiektowa: Klasyfikacja odbywa się na zlokalizowanej grupie pikseli, biorąc pod uwagę właściwości przestrzenne każdego piksela, ponieważ odnoszą się one do siebie. W tym sensie przykład szkolenia dla algorytmu klasyfikacji składałby się z grupy pikseli, a wyuczony algorytm klasyfikacji odpowiednio generowałby prognozę klasy dla pikseli na podstawie grupy. Na przykład, obraz może być podzielony na n segmentów o równej wielkości, a następnie każdy segment otrzymałby klasę (tj. Zawiera obiekt / nie zawiera obiektu).
Czy takie myślenie jest trafne w odniesieniu do znaczenia tych terminów, czy też coś przeoczyłem?
Jeśli chodzi o klasyfikację opartą na pikselach, jesteś na miejscu. Każdy piksel jest wektorem n-wymiarowym i zostanie przypisany do pewnej klasy zgodnie z pewną metryką, niezależnie od tego, czy używa maszyn wsparcia wektorów, MLE, pewnego rodzaju klasyfikatora knn itp.
Jeśli chodzi o klasyfikatory regionalne, w ciągu ostatnich kilku lat nastąpił ogromny rozwój, napędzany kombinacją układów GPU, ogromną ilością danych, chmurą i szeroką dostępnością algorytmów dzięki rozwojowi open source (ułatwione przez github). Jednym z największych osiągnięć w dziedzinie wizji / klasyfikacji komputerowej były konwergentne sieci neuronowe. Warstwy splotowe „uczą się”, które mogą opierać się na kolorze, jak w przypadku tradycyjnych klasyfikatorów opartych na pikselach, ale także tworzą detektory krawędzi i wszelkiego rodzaju inne ekstraktory funkcji, które mogą istnieć w obszarze pikseli (stąd część splotowa) nigdy nie można wyodrębnić z klasyfikacji opartej na pikselach. Oznacza to, że rzadziej błędnie sklasyfikują piksel na środku obszaru pikseli innego typu - jeśli kiedykolwiek przeprowadziłeś klasyfikację i dostałeś lód na środku Amazonki, zrozumiesz ten problem.
Następnie stosuje się w pełni połączoną sieć neuronową do „funkcji” poznanych przez zwoje w celu dokonania klasyfikacji. Jedną z innych wielkich zalet CNN jest to, że są niezmienne w skali i rotacji, ponieważ zwykle istnieją warstwy pośrednie między warstwami splotu i warstwą klasyfikacyjną, które uogólniają funkcje, wykorzystując pule i usuwanie, aby uniknąć nadmiernego dopasowania i pomóc w rozwiązywaniu problemów skala i orientacja.
Istnieje wiele zasobów na temat splotowych sieci neuronowych, chociaż najlepsza musi być klasa Standord Andrei Karpathy , który jest jednym z pionierów w tej dziedzinie, a cała seria wykładów jest dostępna na youtube .
Jasne, istnieją inne sposoby radzenia sobie z klasyfikacją opartą na pikselach w zależności od obszaru, ale jest to obecnie najnowocześniejsze podejście i ma wiele zastosowań poza klasyfikacją teledetekcji, takich jak tłumaczenie maszynowe i samochody samojezdne.
Oto kolejny przykład klasyfikacji opartej na regionie , w której wykorzystano Open Street Map do oznaczonych danych treningowych, w tym instrukcje dotyczące konfigurowania TensorFlow i uruchamiania w AWS.
Oto przykład zastosowania Google Earth Engine klasyfikatora opartego na wykrywaniu krawędzi, w tym przypadku do nawadniania obrotowego - wykorzystującego jedynie jądro gaussowskie i zwoje, ale znowu, pokazującego moc podejścia opartego na regionie / krawędzi.
Podczas gdy przewaga obiektu nad klasyfikacją opartą na pikselach jest dość powszechnie akceptowana, oto ciekawy artykuł w Listach teledetekcyjnych oceniający skuteczność klasyfikacji obiektowej .
Wreszcie zabawny przykład, aby pokazać, że nawet przy klasyfikatorach regionalnych / splotowych wizja komputerowa jest nadal bardzo trudna - na szczęście najmądrzejsi ludzie w Google, Facebook itp. Pracują nad algorytmami, aby móc określić różnicę między psy, koty i różne rasy psów i kotów. Osoby zainteresowane teledetekcją mogą spać spokojnie w nocy: D
źródło
Bardzo prosta odpowiedź jest następująca:
Jeśli używasz tylko informacji spektralnych (intensywności pikseli) jako zestawu treningowego, klasyfikujesz bazę pikseli.
Jeśli jako zestaw treningowy wykorzystasz zarówno informacje przestrzenne (piksele sąsiedztwa), jak i informacje spektralne, klasyfikujesz bazę obiektów (używając algorytmu opartego na segmentacji, np. DBScan). W Computer Vision ten DBScan używał do ekstrakcji Superpixel.
Uwaga: możesz użyć informacji spektralnych w dowolnym znaczeniu (rozmiar, kształt, kontekst / tekstura) do ekstrakcji obiektów.
Możesz użyć różnych podejść, aby przeprowadzić ekstrakcję cech za pomocą informacji spektralnych.
Główne pytanie brzmi: w jaki sposób można znaleźć najbardziej odpowiednie podejście do wydobywania cech i zastosować skuteczny algorytm (wykrywanie krawędzi, segmentacja oparta na widmie, klastrowanie) dla postawionego problemu, aby wyrzucić informacje z informacji spektralnych.
Można by pomyśleć o macierzy splotu, aby wykonać niezłą analizę zarówno informacji widmowej, jak i przestrzennej w celu stworzenia zestawu treningowego.
Odniesienie: Moja wiedza po ponad 3 latach pracy w dziedzinie teledetekcji i domeny GIS.
źródło