Ulepszona rozdzielczość obrazu CSI: jaka jest rzeczywistość?

30

Więc obejrzałem następujący 1-minutowy klip na Youtube z CSI New York . W klipie, używając czegoś, co wydaje się być nagraniem ze standardowej kamery bankowej, powiększają co najmniej 100 i widzą obraz winowajcy w odbiciu oka dziewczyny.

Teraz myślałem, że to było całkowicie śmieszne, tak bardzo, że myślałem, że to naprawdę śmieszne.

Jednak mój przyjaciel twierdził, że istnieją bardzo dobre sztuczki w zakresie ulepszania obrazu, takie jak „super rozdzielczość” procedura, w której wiele klatek wideo pozwala uzyskać znacznie wyższą rozdzielczość pojedynczej rozdzielczości. Myślał, że serial trochę zagina prawdę, ale ile?

Szczerze mówiąc, tak naprawdę nic nie wiem o tych rzeczach, więc moje pytanie brzmi:

Jak dobra jest nowoczesna poprawa rozdzielczości obrazu? Jak daleko są też programy telewizyjne CSI?

Dziękuję Ci,

Uwaga: To jest krzyż pisał na stronie sceptyków. Powiedziano mi, że mogę tu otrzymać lepsze odpowiedzi.

Społeczność
źródło
10
Prawie wyplułem kawę, kiedy tak poważnie skinęła głową i powiedziała „obrazowanie rogówki”. Cały ton tej sceny jest tak absurdalnie absurdalny - gdyby było to możliwe na tym poziomie, byłoby to rutynowe i oczywiste, a nie niesamowity sprytny zwrot akcji, jak się wydaje, jak pokazano w tym klipie.
mattdm,
2
LOL, mniej więcej tak realne, jak zdjęcia satelitarne na żądanie, zbliżenia w filmach akcji.
Jakub Sisak GeoGraphics 10.11.11
1
@ Bob nie w stopniu wykonanym w filmach, w których mogą zidentyfikować określone osoby w jednej klatce filmu z kosmosu (lub z samolotu lecącego 10 km w górę). Z drona latającego na kilkaset stóp wysokości, używając nieruchomej ramy, może przy odrobinie szczęścia.
jwenting
1
Myślę, że byłbyś zaskoczony. Nie dlatego, że jestem ekspertem, ale podobno SR-71 może wykryć linie parkingowe z odległości 25 km. To prawda, że ​​prawdopodobnie nie dostaniesz twarzy , ale możesz zidentyfikować ich za pomocą innych ciekawostek, takich jak ich świta / pojazdy en.wikipedia.org/wiki/Reconnaissance_aircraft
Jane Panda
1
Rozdzielczość 6 "z klatki filmowej o rozmiarze padu prawnego, tak, nie 0,01" Rozdzielczość z klatki o rozmiarze znaczka pocztowego :)
jwenting

Odpowiedzi:

36

Krótka odpowiedź: możesz uzyskać bardzo dobre wyniki, ale tylko pod pewnymi warunkami i absolutnie nawet nie w pobliżu tego, co pokazano w połączonym klipie wideo.

Moja firma, Amped Software , opracowuje oprogramowanie do przetwarzania obrazu i wideo dla aplikacji kryminalistycznych i wywiadowczych, więc zasadniczo jesteśmy odpowiednikiem oprogramowania CSI w świecie rzeczywistym.

Odnosząc się do ogólnego problemu poprawy jakości, mogę powiedzieć, że dla naszego rynku ogromnym problemem jest sprostanie oczekiwaniom stworzonym przez seriale telewizyjne i filmy z Hollywood. Możesz zobaczyć na naszej stronie próbek, że czasami wyniki, które możemy uzyskać, są naprawdę niesamowite, ale ważne jest, aby zrozumieć, że możemy je uzyskać tylko pod pewnymi warunkami: jeśli istnieją informacje, które są zakłócone, ale one tam są , jesteśmy w stanie go odzyskać. Jeśli nie ma żadnych informacji, nie możemy i nie możemy ich odtworzyć. W tej konkretnej aplikacji niezbędne jest nie tylko uzyskanie wyników z wizualnego punktu widzenia, ale także postępowanie naukowe, które musi zostać zaakceptowane przez sąd .

W ubiegłym roku przedstawiłem badanie opisujące problemy i wyniki dotyczące prawie 200 przypadków, nad którymi pracowałem, a końcowy wynik był następujący:

  • w ponad 50% przypadków nie ma nic do zrobienia (na przykład odzyskanie tablicy rejestracyjnej o wymiarach 5x2 pikseli jest całkowicie niemożliwe w przypadku jakiegokolwiek oprogramowania na świecie);
  • w około 30% przypadków możemy uzyskać niewielki wynik (na przykład przywrócenie litery tablicy rejestracyjnej lub poprawienie ogólnego wyglądu twarzy);
  • w 10% przypadków uzyskuje się dobre wyniki (na przykład większość tablicy rejestracyjnej).

Należy pamiętać, że we wszystkich tych przypadkach występowały poważne problemy z jakością. Jeśli ich jakość była dobra, nie zostaliśmy poproszeni o pracę nad nimi.

Co dotyczy w szczególności poprawy rozdzielczości :

  • podczas powiększania obrazu interpolujesz brakujące piksele: z jednego obrazu możesz poprawić wizualnie jego wygląd, ale nie dodasz żadnych prawdziwych szczegółów ;
  • techniki super rozdzielczości mogą przynosić dobre rezultaty w określonych warunkach: powinieneś mieć wystarczającą liczbę klatek, przesuniętych o liczbę całkowitą nieprzekraczającą liczby całkowitej i najlepiej z kilkoma artefaktami kompresji. W najlepszym przypadku można oczekiwać dobrych rezultatów przy powiększeniu 2x i 3x.

To, co jest pokazane w klipie wideo, jest możliwe tylko wtedy, gdy oryginalny film został nakręcony w kilku megapikselach, a wtedy będziesz miał rozdzielczość do bardzo zbliżenia (mniej więcej tak jak w Mapach Google). Oczywiście w tym momencie nadal pojawiałyby się inne problemy, takie jak właściwe ustawienie ostrości, słabe oświetlenie, fakt, że perspektywa oka różni się od perspektywy całego obiektu na filmie, żeby wymienić tylko kilka.

martjno
źródło
11

Nie możesz zrobić niczego z niczego, musisz mieć (lub zgadnąć) pewne informacje, aby móc w jakikolwiek sposób poprawić obraz. Na przykład, jeśli znasz właściwości funkcji rozmycia (i nie ma szumu obrazu), możesz faktycznie odblokować zdjęcie. Jednak rzadko znasz funkcję rozmycia, a szum jest zawsze obecny, co poważnie ogranicza to, co możesz odzyskać (Adobe niedawno zademonstrował filtr odblokowania, ale ich demo było z syntetycznym rozmyciem).

Krótko mówiąc, CSI to niemal czysta fikcja - korzyści, które są możliwe w prawdziwym życiu, są marginalne, niczym więcej niż 5-krotny wzrost rozdzielczości prezentowany w telewizji.

Sprawdzanie rozsądku: gdyby mogli to zrobić, ludzie nie płaciliby dziesiątek tysięcy za aparaty 40+ MP Hasselblad, taniej byłoby po prostu powielić oprogramowanie!

edycja: Jakoś nie zauważyłem oryginalnego pytania o super rozdzielczości w wideo. W rzeczywistości możliwa jest super-rozdzielczość wielu obrazów, ale tylko do ograniczeń czujnika. Działa przy użyciu zestawu obrazów z przesunięciami subpikseli. Daje to informacje o wartościach między pikselami, umożliwiając zbudowanie obrazu o wyższej rozdzielczości. Super-rozdzielczość z wideo działa, ponieważ poruszający się obiekt powoduje ten sam rodzaj przesunięć, jednak wygląd obiektów nie może zmieniać się tak bardzo między klatkami. Technika w najlepszym razie daje tylko wyniki czujnika o wyższej rozdzielczości, nie można przekroczyć granic mocy rozdzielczej obiektywu, która byłaby dość ograniczona w przypadku obiektywów CCTV.

Oto przykład super-rozwiązania w dobrych warunkach:


(źródło: wikimedia.org )

zdjęcie z photoacute.com

poprawa rozdzielczości, tak, ale wciąż nigdzie w pobliżu wydajności na poziomie CSI.

Aby odnieść się do mojego komentarza powyżej, najnowsze Hasselblady faktycznie implementują super-rozdzielczość przesunięcia czujnika, pod nazwą „przechwytywanie wielu ujęć”, więc nadal nie możesz pokonać producentów średnich formatów we własnej grze przy użyciu sprytnego oprogramowania ...

Matt Grum
źródło
Wygląda na to, że masz kilka połamanych zdań: „... moc rozdzielcza obiektywu, co by ?? i „poprawa rozdzielczości, tak, ...”
jrista
@jrista Dzięki, naprawiłem pierwszy, drugi ma być kontynuacją zdania nad obrazem.
Matt Grum,
3

Oto co mam do tej pory:

Obszar oka, w którym widzą koszykówkę, wynosi około 1 milimetra kwadratowego. Na podstawie wzrostu dziewczynki możemy z pewnością oszacować, że powinna ona wynosić najwyżej 1 milionową całkowitej liczby pikseli na ekranie. (Szerokość i wysokość obrazu, choć nie są dobrze zdefiniowane dla fotografii, ponieważ niektóre rzeczy mogą być bliżej, wyglądają mniej więcej na 3 x 3 metry, co oznaczałoby 10 milionów milimetrów kwadratowych. Oko może być jednak bliżej rzeczywistej soczewki aparatu, więc Z grubsza szacuję i dzielę przez 10 $.)

Jeśli nagranie było w jakości HD, byłoby to nadal tylko 2 megapiksele, więc tam, gdzie widzimy, koszykówka powinna mieć rozmiar jednego piksela.

Myślę, że rozumowanie niewątpliwie pokazuje, że to nieprawda, ale wciąż zastanawiam się, jakie są górne granice poprawy obrazu?


źródło
1
moim gościem jest to, że wynalezienie ponad 50% pikseli stworzy całkowitą fantazję, a na długo przed tym twój obraz stanie się tak zły, że będzie bezużyteczny do identyfikacji konkretnych osób lub przedmiotów, z wyjątkiem ogólnego kształtu.
jwenting
2

Istnieje pewne dostępne na rynku oprogramowanie z Super Resolution. Sam tego nie próbowałem, ale materiały reklamowe są całkiem dobre. Oprogramowanie jest ukierunkowane na inwigilację, bezpieczeństwo i siły zbrojne, ale sądzę, że niektóre jednostki sądowe będą miały dostęp do tych rzeczy.

Dwa przykłady to: Ikena z MotionDSP i TacitView z 2d3

Håkon K. Olafsen
źródło
3
Należy zauważyć, że super-rozwiązanie wymaga wielu obrazów źródłowych do dostarczenia algorytmowi większej ilości danych niż w innym przypadku. Działa to z wideo, ponieważ ciągle przechwytujesz ciągłą sekwencję klatek, przy czym każda kolejna klatka jest zwykle w większości podobna do poprzedniej. Dodatkowo, im większa rozdzielczość źródła, tym więcej żywności dla algorytmu do przeżuwania. Takie ulepszenie obrazu nie byłoby tak naprawdę możliwe w przypadku pojedynczego obrazu statycznego, ani obrazów z kamery o niskiej klatce na sekundę, o niskiej rozdzielczości, takiej jak film z YouTube.
jrista
To prawda, a formularz odpowiedzi @ Matt-Grum wyjaśnia to nieco bardziej szczegółowo. Istnieje również dobra informacja na Wikipedii o obrazowaniu Super Resolutino i Speckle (znanym również jako astronomia wideo). Oba działają na serii zdjęć, ale wykorzystują różne techniki, aby stworzyć gotowy produkt.
Håkon K. Olafsen
Interesujące, że nie słyszałem wcześniej o obrazowaniu Speckle, chociaż słyszałem o „stosowaniu”, ponieważ jest to powszechnie określane w grupach astrofotograficznych.
jrista
1

Ulepszanie obrazu / wideo do poziomu sugerowanego w programach telewizyjnych jest po prostu niemożliwe i jest w rzeczywistości ograniczone przez urządzenie do przechwytywania obrazu. To technologia, która musiałaby najpierw ewoluować.

Niemożliwe jest uzyskanie informacji z kolekcji 10 pikseli na rozpoznawalny obiekt. Na poziomie pikseli jest to końcowa ilość informacji zawartych w obrazie. Masz tylko 100 bloków koloru w tym skończonym powiększeniu. Możesz zwiększyć obszar 10x10 pikseli do 100x100 pikseli za pomocą interpolacji, ale informacje w 10x10 pikseli są wystarczające, a interpolacja opiera się na wyuczonych domysłach opartych na tych 10 x 10 pikseli przez oprogramowanie. Rezultatem byłoby rozmycie 100 x 100 pikseli. Alternatywnie, weź obraz 2000 x 2000 pikseli i interpoluj go do 4000 x 4000 pikseli, a niektóre rozmycia, które nie są tak wyraźne na oryginalnym obrazie, mogą wyglądać na bardziej wyraźne obiekty na większym obrazie wyłącznie przez pareidolię - ale nawet wtedy jest to przypuszczenie lub przypuszczenie. Interpolowany obraz dałby „iluzję” bardziej szczegółowych szczegółów,

Ulepszanie obrazu zależy wyłącznie od maksymalnej ilości informacji przechwyconych przez oryginalne źródło obrazowania, a powiększanie do pikseli jest wszystkim, co jest dostępne. Niektóre aparaty mogą robić zdjęcia w bardzo dobrej rozdzielczości, ale żadne oprogramowanie nie może wydobyć szczegółów, które nie zostały zapisane na oryginalnym obrazie.

Teraz, aby wrócić do pokazów CSI, większość z nich przechwytuje standardowy materiał z kamery monitorującej, który na początku i tak nie ma szczególnie wysokiej rozdzielczości w prawdziwym życiu, więc kiedy widzę tego rodzaju ulepszenie w programach, to tylko mnie rozśmiesza. - ponieważ jest to niemożliwe nawet przy użyciu najbardziej zaawansowanej formy oprogramowania do edycji obrazu (a PhotoShop jest dobrze i naprawdę na górnym końcu zaawansowanej skali). Ulepszanie i powiększanie obrazu opiera się w 100% na informacjach przechwytywanych przez urządzenie obrazujące - więc kamera monitorująca zdolna do przechwytywania mówi, że odbicie twarzy osoby po stronie rogówki oka musiałoby być super mocne i byłoby oburzająco drogie . Materiał musiałby mieć wyjątkowo wysoką rozdzielczość pikseli na klatkę (powiedzmy 100 megapikseli lub około 9,5 terabajtów, aby przechowywać 1 sekundę materiału), co zniszczyłoby rozmiar pliku nagrania do tego stopnia, że ​​każda kamera do nadzoru potrzebowałaby małej farmy serwerów do przechowywania nagrań o wartości 24 godzin. Bardzo drogi. Powstała technologia udoskonalania polegałaby na urządzeniach do przechwytywania obrazu, które mogłyby najpierw wykonać ten poziom szczegółowego przechwytywania wideo i obrazu, aby przechowywać dane w wygodny sposób i być w punkcie, w którym jest to niedrogie do wdrożenia w miastach. Rozmiar pliku byłby tak niesamowicie duży na materiale wideo (pamiętaj o 9,5 terabajta na sekundę), że oprogramowanie zdolne do tego potrzebowałoby niezwykle potężnego superkomputera (jak na dzisiejsze standardy). Przy rosnącej prędkości technologii może to być możliwe w przyszłości, prawdopodobnie za naszego życia. Tylko wtedy mogliby to zrobić, ale obrazy nie byłyby ulepszone, powiększałyby tylko bardzo szczegółowe zdjęcia. Wiem o tym, ponieważ pracuję na zdjęciach cyfrowych, by żyć pełnoetatowo.

użytkownik29823
źródło