Czy istnieją jakieś nowoczesne techniki generowania tekstowych wyzwań CAPTCHA (więc osoba musi wpisać odpowiedni tekst), które mogą łatwo oszukać AI za pomocą niektórych wizualnych metod zaciemniania, ale jednocześnie człowiek może je rozwiązać bez żadnych problemów?
Na przykład mówię o zwykłej zdolności rozpoznawania tekstu osadzonego w obrazie (bez uwzględnienia zewnętrznych wtyczek, takich jak flash lub Java, klasyfikacja obrazów itp.) I ponownego wpisywania tekstu, który został napisany lub coś podobnego.
Wydaje mi się, że dodawanie szumu, gradientu, obracania liter lub zmiany kolorów nie jest już niezawodną metodą, ponieważ można je szybko zepsuć.
Wszelkie sugestie lub badania zostały wykonane?
image-recognition
research
ocr
kenorb
źródło
źródło
Odpowiedzi:
To interesujące pytanie o to, co czyni ludzi wyjątkowymi. Jest to dobra książka na ten temat pod tytułem Co Komputery mogę zrobić przez Hubert Dreyfus .
Jednym z zadań, z którym komputer nie może sobie poradzić (przynajmniej na razie), jest szeregowanie ważnych rzeczy. Na przykład CAPTCHA prosi o uporządkowanie losowej listy rzeczy (małej, pięciu lub sześciu) według ważności. To szczególne ćwiczenie wymaga AI do podejmowania decyzji (nie zawsze racjonalnych) w oparciu o ludzki osąd.
źródło
Metodą, która mogłaby ewentualnie działać, jest wykorzystanie złudzeń optycznych, takich jak ta, w której dwie linie w dół korytarza są identyczne, ale jedna wydaje się dłuższa dla ludzkiego oka, wówczas można by im zadać pytanie wielokrotnego wyboru co do stanu linii, który ma nasze oczy wyglądają na dłuższe, ale na komputer jest wciąż tej samej długości linii. Oczywiście zawsze istnieje problem, że osoby z niepełnosprawnością narządu wzroku nie są w stanie ich ukończyć, ale można to wykorzystać przy pomocy różnych złudzeń.
Przykład
źródło
Niech etykieta użytkownika podświetli obiekty w filmie, których nie potrafi rozwiązać najnowocześniejszy klasyfikator
Utwórz najnowszy klasyfikator wideo. Równie dobrze możesz go wyszkolić na danych szkoleniowych Google YouTube-8M . Ale będziesz też chciał ciągle przesyłać oryginalny film.
Niech klasyfikator oznaczy jak najwięcej obiektów. Niech wyizoluje, które obiekty rozpoznaje jako obiekty, ale których nie może opisać.
Niech generuje filmy, które obrysowują obiekty. Najlepiej GIF-y, które można łatwo osadzić w formularzach.
W przypadku 100 z nich zapytaj 100 użytkowników, czym jest obiekt. Jeśli 90% użytkowników zgadza się na nazwę obiektu, dodaj to wideo do zestawu captcha. Nazwij to zestawem przeszkolonym.
Za każdym razem, gdy użytkownik musi się uwierzytelnić, pokaż mu jeden z wyróżnionych obiektów w filmie, który nie pochodzi ze wstępnie wyszkolonego zestawu . Jeśli obraz ma mniej niż 100 pokazów, zapisz etykietę i podaj użytkownikowi kolejny z wcześniej wyszkolonego zestawu. Jeśli dobrze to zrobią, przepuść je, jeśli nie, daj im kolejny z przygotowanego zestawu.
Gdy nieprzeszkolone wideo ma więcej niż 100 pokazów i ponad 90% użytkowników captcha zgadza się, dodaj to wideo do zestawu po przeszkoleniu.
Z czasem powoli wyjmij wstępnie wyszkolony zestaw. Umieść wygaśnięcia na każdym filmie w zestawie po przeszkoleniu i usuń je po wygaśnięciu, aby nie były używane zbyt wiele razy.
Najlepiej byłoby, gdyby proces ten stale poprawiał klasyfikator wideo, utrzymując go na najwyższym poziomie i nieco wyprzedzając inne klasyfikatory. Być może może również sprzyjać mniej powszechnym słowom i przedmiotom oraz bardziej ezoterycznym rzeczom, aby specjalizować ten klasyfikator w stosunku do innych klasyfikatorów.
To samo można zrobić w przypadku etykietowania obrazów, ale użyteczność klasyfikatora wideo prawdopodobnie będzie trwać dłużej, biorąc pod uwagę postępy w sztucznej inteligencji.
Ściśle rzecz biorąc, nie licząc pewnych sztuczek kwantowych, nie ma systemu captcha, który pewnego dnia nie zostanie rozwiązany przez zewnętrzne systemy AI.
(edytuj: och, właśnie zauważyłem, że konkretnie powiedziałeś „captcha tekstowa”. Jeśli o to ci chodzi, to nie sądzę, że w klasyfikacji tekstowej pozostało wiele tajemnic. Komputery prawdopodobnie mogą teraz lepiej pobierać tekst ze zdjęć niż ludzie. Ale technicznie dane wejściowe w wyżej opisanym systemie captcha są tekstowe.)
źródło