Skąd recaptcha wie, że nie wprowadzasz fałszywych tłumaczeń zdjęć [zamknięte]

22

Z tego, co rozumiem, Captchas to tekst, który został zniekształcony przez zastosowanie filtrów, szumu i innych niecelowych algorytmów. Dlatego, aby dowiedzieć się, czy umiejętność czytania osoby jest umiejętnością danej osoby, porównujesz jej odpowiedź z odpowiedzią znaną.

Teraz, czytając ReCaptcha, mówi, że wyświetlane słowa to te, których OCR nie może przetłumaczyć. Ponadto do tłumaczenia tych obrazów używana jest recaptcha. Jak może stwierdzić, czy rzeczywiście masz rację, czy tylko wymyślasz jakieś rzeczy?

Gdyby wiedział, co powiedział, nie byłby użyty w recaptcha jako materiał do tłumaczenia. Jeśli nie wie, co mówi tekst, to jak potwierdza twoją odpowiedź?

Domyślam się, że jest to prawdopodobnie analiza oparta na prawdopodobieństwie z dużymi rozmiarami próby, zanim oznaczy cokolwiek jako przetłumaczone.

Czy ktoś wie, gdzie jest odpowiedź na to pytanie?

Zigu
źródło
3
Interesujący jest 4chan / anonimowy dowcip w ankiecie Time. „Ciasto marmurowe, także gra”, które wykorzystywało błędy w weryfikacji drugiego słowa crowdsourcingu.
DanBeale,
2
Hack @Dan mentioend: musicmachinery.com/2009/04/27/moot-wins-time-inc-loses
BlueRaja - Danny Pflughoeft

Odpowiedzi:

33

Strony książek są zasadniczo skanowane fotograficznie, a następnie przekształcane w tekst za pomocą „Optycznego rozpoznawania znaków” (OCR) i podawane do Internetu w formie obrazu z jednym słowem znanym programowi komputerowemu za reCAPTCHA i jednym słowem, które nie jest jeszcze znany.

Następnie użytkownik wpisuje oba słowa i jeśli rozwiązuje to, na które odpowiedź jest znana, system zakłada, że ​​ich odpowiedź jest poprawna dla nowego. Następnie system przekazuje nowy obraz wielu innym osobom, aby z większą pewnością stwierdzić, czy oryginalna odpowiedź była poprawna. Dlatego system jest usługą samodoskonalącą, która z czasem staje się lepsza.

http://www.google.com/recaptcha/learnmore

Paweł
źródło
22

Właśnie dlatego reCaptcha wymaga wprowadzenia dwóch słów. Jedno ze słów jest już znane, a jedno ze słów nie jest znane. To, czy zdasz, czy nie, captcha zależy tylko od tego, jak odpowiesz na znane słowo. Twoja odpowiedź na inne (nieznane) słowo zostanie użyta wraz z innymi odpowiedziami na to samo słowo, aby przekształcić je również w znane słowo.

Joel Coehoorn
źródło
4
... dlatego też z czasem korzystanie z niego staje się coraz bardziej frustrujące i przekonuje cię, że jesteś idiotą / robotem, gdy zawiedziesz go po raz piąty z rzędu. :-(
Sirex
Dziwne ... Nigdy nie zawiodłem takiego, który pamiętam, być może po prostu szczęścia z mojej strony.
Paul
@Sirex Kiedyś tak myślałem, ale potem zdałem sobie sprawę, że jest to prawdą tylko wtedy, gdy rozmiar tekstu korpusu jest stały lub maleje w stosunku do pozycji captcha. Prawda jest taka, że ​​tekst korpusu rośnie ... pytanie brzmi, czy wzrost ten dotrzymuje kroku wzrostowi nadmiernego używania captcha.
Joel Coehoorn
Chyba tak. Widziałem wiele reCaptch, które są po prostu niesamowicie trudne. Gdzie nawet znane słowo jest dwuznaczne.
Sirex,