Przeczytałem te słowa w wielu publikacjach i chciałbym mieć kilka fajnych definicji tych terminów, które wyjaśniają, jaka jest różnica między wykrywaniem obiektu a segmentacją semantyczną a lokalizacją. Byłoby miło, gdybyś mógł podać źródła swoich definicji.
terminology
computer-vision
Martin Thoma
źródło
źródło
Odpowiedzi:
Czytam wiele artykułów na temat: Wykrywanie obiektów, Rozpoznawanie obiektów, Segmentacja obiektów, Segmentacja obrazu i Semantyczna segmentacja obrazu i oto moje wnioski, które mogą być nieprawdziwe:
Rozpoznawanie obiektów: Na danym obrazie musisz wykryć wszystkie obiekty (ograniczona klasa obiektów zależy od zestawu danych), zlokalizuj je za pomocą ramki granicznej i oznacz tę ramkę etykietą. Na poniższym obrazku zobaczysz proste wyjście z najnowocześniejszego rozpoznawania obiektów.
Wykrywanie obiektów: to jest jak rozpoznawanie obiektów, ale w tym zadaniu masz tylko dwie klasy klasyfikacji obiektów, co oznacza ramki ograniczające obiekty i ramki nie będące obiektami. Na przykład Wykrywanie samochodu: musisz wykryć wszystkie samochody na danym obrazie z ich obwiedniami.
Segmentacja obiektów: Podobnie jak rozpoznawanie obiektów rozpoznasz wszystkie obiekty na obrazie, ale twój wynik powinien pokazywać obiekt klasyfikujący piksele obrazu.
Segmentacja obrazu: Podczas segmentacji obrazu segmentujesz regiony obrazu. Twoje wyniki nie będą oznaczać segmentów i regionu obrazu, które spójne ze sobą powinny znajdować się w tym samym segmencie. Wyodrębnianie super pikseli z obrazu jest przykładem tego zadania lub segmentacji tła pierwszego planu.
Segmentacja semantyczna: w segmentacji semantycznej musisz oznaczyć każdy piksel klasą obiektów (samochód, osoba, pies, ...) i obiektami nieprzemakalnymi (woda, niebo, droga, ...). Innymi słowy, w segmentacji semantycznej oznaczysz każdy region obrazu.
źródło
Ponieważ ten problem nie jest jeszcze całkiem jasny nawet w 2019 r. I może pomóc nowym uczącym się ML, oto bardzo dobry obraz pokazujący różnice:
(lokalizacja to ramka wokół klasy „owczej”, po dokonaniu klasyfikacji obrazu) źródło: Towardsdatascience.com
źródło
Uważam, że po prostu „lokalizacja” oznacza „klasyfikację pojedynczego obiektu + lokalizacja przy użyciu obwiedni 2D lub 3D”.
„Wykrywanie obiektów” polega na lokalizacji + klasyfikacji wszystkich wystąpień znanych klas obiektów, o których mowa.
Segmentacja semantyczna to w zasadzie klasyfikacja na piksel.
Wpisano również zaangażowane dane (źródło: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
Precyzja to stosunek dokładnie zidentyfikowanych obiektów do całkowitej liczby przewidywanych obiektów (stosunek liczby prawdziwie dodatniej do liczby prawdziwie dodatniej plus wartość fałszywie dodatnia).
Wywołanie to stosunek dokładnie zidentyfikowanych obiektów do całkowitej liczby rzeczywistych obiektów na obrazach (stosunek wartości rzeczywistych dodatnich do rzeczywistych dodatnich plus prawdziwe negatywne).
mAP: uproszczony średni wynik średniej precyzji oparty na iloczynie precyzji i przywołania dla DetectNet. Jest to dobra łączna miara wrażliwości sieci na interesujące obiekty i tego, jak dobrze zapobiega fałszywym alarmom.
źródło
Pojęcie lokalizacji jest niejasne. Omówię zatem terminy detekcja obiektów i segmentacja semantyczna.
W wykrywaniu obiektów każdy piksel obrazu jest klasyfikowany, niezależnie od tego, czy należy do określonej klasy (np. Twarzy), czy nie. W praktyce upraszcza się to poprzez grupowanie pikseli razem w celu utworzenia ramek ograniczających, co ogranicza problem do podjęcia decyzji, czy ramka ograniczająca jest ściśle dopasowana do obiektu. Ponieważ piksele mogą należeć do wielu obiektów (np. Twarzy, oczu), mogą przechowywać wiele etykiet jednocześnie.
Z drugiej strony segmentacja semantyczna polega na przypisywaniu etykiet klas do każdego piksela obrazu. Chociaż pozwalają na lepszą dokładność lokalizacji, ponieważ nie zawierają uproszczenia ramki granicznej, ściśle wymuszają pojedynczą etykietę na piksel.
źródło
Segmentacja semantyczna: zadaniem jest grupowanie części obrazów, które należą do tej samej klasy obiektów. np .: wykrywanie znaków drogowych
źródło