Jaka jest różnica między wykrywaniem obiektów, segmentacją semantyczną i lokalizacją?

23

Przeczytałem te słowa w wielu publikacjach i chciałbym mieć kilka fajnych definicji tych terminów, które wyjaśniają, jaka jest różnica między wykrywaniem obiektu a segmentacją semantyczną a lokalizacją. Byłoby miło, gdybyś mógł podać źródła swoich definicji.

Martin Thoma
źródło
1
Obejrzyj
Shatu

Odpowiedzi:

18

Czytam wiele artykułów na temat: Wykrywanie obiektów, Rozpoznawanie obiektów, Segmentacja obiektów, Segmentacja obrazu i Semantyczna segmentacja obrazu i oto moje wnioski, które mogą być nieprawdziwe:

Rozpoznawanie obiektów: Na danym obrazie musisz wykryć wszystkie obiekty (ograniczona klasa obiektów zależy od zestawu danych), zlokalizuj je za pomocą ramki granicznej i oznacz tę ramkę etykietą. Na poniższym obrazku zobaczysz proste wyjście z najnowocześniejszego rozpoznawania obiektów.

Rozpoznawanie obiektów

Wykrywanie obiektów: to jest jak rozpoznawanie obiektów, ale w tym zadaniu masz tylko dwie klasy klasyfikacji obiektów, co oznacza ramki ograniczające obiekty i ramki nie będące obiektami. Na przykład Wykrywanie samochodu: musisz wykryć wszystkie samochody na danym obrazie z ich obwiedniami.

Wykrywanie obiektów

Segmentacja obiektów: Podobnie jak rozpoznawanie obiektów rozpoznasz wszystkie obiekty na obrazie, ale twój wynik powinien pokazywać obiekt klasyfikujący piksele obrazu.

segmentacja obiektów

Segmentacja obrazu: Podczas segmentacji obrazu segmentujesz regiony obrazu. Twoje wyniki nie będą oznaczać segmentów i regionu obrazu, które spójne ze sobą powinny znajdować się w tym samym segmencie. Wyodrębnianie super pikseli z obrazu jest przykładem tego zadania lub segmentacji tła pierwszego planu.

segmentacja obrazu

Segmentacja semantyczna: w segmentacji semantycznej musisz oznaczyć każdy piksel klasą obiektów (samochód, osoba, pies, ...) i obiektami nieprzemakalnymi (woda, niebo, droga, ...). Innymi słowy, w segmentacji semantycznej oznaczysz każdy region obrazu.

segmentacja semantyczna

e_soroush
źródło
niezła odpowiedź. Zauważę, że cs231n.stanford.edu/slides/winter1516_lecture8.pdf slajd 8 używa innej definicji wykrywania obiektów, która wykrywa wiele klas i wiele instancji w tej samej klasie (nie wiem, czy istnieje jedna zaakceptowana definicja, czy nie, więc może to wynikać z niejasności).
Keith
1
segmentacja instancji, podobnie jak segmentacja semantyczna, ale krowy należy oznaczyć jako osobne
titus
2
Prezentacje
Shatu
5

Ponieważ ten problem nie jest jeszcze całkiem jasny nawet w 2019 r. I może pomóc nowym uczącym się ML, oto bardzo dobry obraz pokazujący różnice:

(lokalizacja to ramka wokół klasy „owczej”, po dokonaniu klasyfikacji obrazu) źródło: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea źródło: Towardsdatascience.com

fogx
źródło
3

Uważam, że po prostu „lokalizacja” oznacza „klasyfikację pojedynczego obiektu + lokalizacja przy użyciu obwiedni 2D lub 3D”.

„Wykrywanie obiektów” polega na lokalizacji + klasyfikacji wszystkich wystąpień znanych klas obiektów, o których mowa.

Segmentacja semantyczna to w zasadzie klasyfikacja na piksel.

Wpisano również zaangażowane dane (źródło: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

Precyzja to stosunek dokładnie zidentyfikowanych obiektów do całkowitej liczby przewidywanych obiektów (stosunek liczby prawdziwie dodatniej do liczby prawdziwie dodatniej plus wartość fałszywie dodatnia).

Wywołanie to stosunek dokładnie zidentyfikowanych obiektów do całkowitej liczby rzeczywistych obiektów na obrazach (stosunek wartości rzeczywistych dodatnich do rzeczywistych dodatnich plus prawdziwe negatywne).

mAP: uproszczony średni wynik średniej precyzji oparty na iloczynie precyzji i przywołania dla DetectNet. Jest to dobra łączna miara wrażliwości sieci na interesujące obiekty i tego, jak dobrze zapobiega fałszywym alarmom.

Andrei Pokrovsky
źródło
2

Pojęcie lokalizacji jest niejasne. Omówię zatem terminy detekcja obiektów i segmentacja semantyczna.

W wykrywaniu obiektów każdy piksel obrazu jest klasyfikowany, niezależnie od tego, czy należy do określonej klasy (np. Twarzy), czy nie. W praktyce upraszcza się to poprzez grupowanie pikseli razem w celu utworzenia ramek ograniczających, co ogranicza problem do podjęcia decyzji, czy ramka ograniczająca jest ściśle dopasowana do obiektu. Ponieważ piksele mogą należeć do wielu obiektów (np. Twarzy, oczu), mogą przechowywać wiele etykiet jednocześnie.

Z drugiej strony segmentacja semantyczna polega na przypisywaniu etykiet klas do każdego piksela obrazu. Chociaż pozwalają na lepszą dokładność lokalizacji, ponieważ nie zawierają uproszczenia ramki granicznej, ściśle wymuszają pojedynczą etykietę na piksel.

Facedetector
źródło
-2

Segmentacja semantyczna: zadaniem jest grupowanie części obrazów, które należą do tej samej klasy obiektów. np .: wykrywanie znaków drogowych

Gan
źródło
2
Ale wykrywanie znaków drogowych to wykrywanie obiektów. Czy potrafisz wyjaśnić różnicę?
reinierpost