W rzeczywistości mamy wiele rzeczy w tym zakresie, rejestrowanie ruchu w przypadku filmów 3D pojawia się niemal natychmiast. Problemem, jeśli o tym myślę, jest mniej sytuacja w obserwowaniu innego aktora, komputery są względnie dobre w robieniu tego już z ilością oprogramowania do rozpoznawania obrazów, jakie mamy, a raczej problemem jest zrozumienie, czy akcja przyniosła dobry wynik jako sieć, która jest czymś, czego komputery nie mogą zrobić, ponieważ nie jest to problem sieci z jednym węzłem. Na przykład zaprogramowaliśmy już komputer do rozumienia ludzkiego języka (prawdopodobnie Watson), ale nawet Watson nie rozumiał pojęcia, że powiedzenie „f ***” jest złe. (Spójrz na to, to zabawna historia poboczna.)
Ale chodzi o to, że algorytmy uczenia się nie są prawdziwym uczeniem się w pewnym sensie, ponieważ komputer nie ma obecnie poczucia „dobrego wyniku”, dlatego na tym etapie uczenie się obserwacji jest bardzo ograniczone w pewnym sensie do „małpy widzą, małpy robią”.
Być może najbliższą rzeczą, o której kiedykolwiek czytałem w tym temacie, były boty poszukiwawczo-ratownicze, które znajdowały się w sieci i nadawały się nawzajem, gdy jeden z nich został zniszczony, ponieważ boty wiedziały, że obszar jest czymś, czego należy unikać.
W przeciwnym razie myślę, że to jest problem z nauką obserwacyjną. Osoba może zaobserwować, że uderzenie kogoś zwykle spowoduje, że zostaniesz trafiony, komputer będzie obserwował i papugował akcję, dobrą lub złą.