Stan wiedzy ogólnej w oparciu o dane z '69

16

Próbuję zrozumieć kontekst słynnej książki Minsky and Papert „Perceptrons” z 1969 roku, tak krytycznej dla sieci neuronowych.

O ile mi wiadomo, nie było jeszcze innych ogólnych algorytmów uczenia nadzorowanego, z wyjątkiem perceptronu: drzewa decyzyjne zaczęły być naprawdę przydatne dopiero pod koniec lat 70., losowe lasy i maszyny SVM to lata 90. Wydaje się, że metoda jackknife była już znana, ale nie walidacja k-cross (lata 70.) czy bootstrap (1979?).

Wikipedia twierdzi, że klasyczne ramy statystyczne Neymana-Pearsona i Fishera wciąż nie były zgodne w latach 50., mimo że pierwsze próby opisania teorii hybryd były już w latach 40.

Dlatego moje pytanie: jakie były najnowocześniejsze metody rozwiązywania ogólnych problemów prognozowania na podstawie danych?

liori
źródło
6
Regresja logistyczna zaczęła być stosowana w dzisiejszych czasach pod koniec lat 70 ', patrz Cramer, JS (2002). „Początki regresji logistycznej”, s. 1. 12, papers.tinbergen.nl/02119.pdf
Tim
Regresja liniowa jest prawdopodobnie „ogólnym nadzorowanym algorytmem uczenia się” i powstała na początku 1800 roku; regresja probitowa, przynajmniej w jakiejś formie, najwidoczniej powstała w latach 30. XX wieku . Czy masz tu na myśli coś szczególnego przez „ogólny”?
Dougal
@Dougal: po prostu „stwierdzono, że ma zastosowanie do wielu problemów w różnych dziedzinach”, w przeciwieństwie do „zaprojektowanych w celu rozwiązania konkretnego problemu”. Próbuję zrozumieć, jakie metody zastosowałby statystyk lub naukowiec sztucznej inteligencji w latach 60. w obliczu nowego nieznanego problemu bez wcześniejszej pracy, gdy najprostsze podejście (jak sądzę, regresja liniowa?) Nie działa dlatego szukanie bardziej złożonych narzędzi jest uzasadnione. Na przykład losowy las jest obecnie jednym z takich algorytmów: działają one dość dobrze na wielu zestawach danych z różnych pól.
liori
Tak, jasne. Być może warto zauważyć, że regresja probitowa jest prawdopodobnie lepszym modelem klasyfikacji ogólnego przeznaczenia niż oryginalne perceptrony. Nie wiem, czy był wtedy używany jako taki. Perceptrony były wówczas uważane za różne, ponieważ były powiązane z algorytmem optymalizacji podobnym do SGD, który prawdopodobnie uczynił je bardziej skalowalnymi dla komputerów tamtych czasów niż probit, choć oczywiście wiemy, że te wybory są niezależne.
Dougal
1
Dla każdego, kto nadal interesuje się tym tematem: Znalazłem interesujące badanie z socjologii dziedziny nauki na temat kontrowersji dotyczących perceptronów w latach 60. XX wieku: Olazaran, „Official History of the Perceptrons Contoversy”. Tekst nie odpowiada na postawione tutaj pytanie, ale stanowi kontekst socjologiczny dla książki Minsky'ego i Paperta - która wydaje mi się teraz ważniejsza niż faktyczny stan nauki.
liori 10.04.16

Odpowiedzi:

12

Byłem ciekawy tego, więc zacząłem kopać. Byłem zaskoczony, gdy stwierdziłem, że rozpoznawalne wersje wielu popularnych algorytmów klasyfikacji były już dostępne w 1969 r. Linki i cytaty podano poniżej.

Warto zauważyć, że badania AI nie zawsze były tak ukierunkowane na klasyfikację. Dużym zainteresowaniem cieszyło się planowanie i rozumowanie symboliczne, które nie są już modne, a dane oznaczone etykietami były znacznie trudniejsze do znalezienia. Nie wszystkie z tych artykułów mogły być wówczas szeroko dostępne: na przykład praca Proto-SVM została w większości opublikowana w języku rosyjskim. Dlatego może to zawyżać szacunek, jaki przeciętny naukowiec wiedział o klasyfikacji w 1969 roku.


Analiza dyskryminacyjna

W artykule z 1936 r. W Annals of Eugenics , Fisher opisał procedurę znajdowania funkcji liniowej, która rozróżnia trzy gatunki kwiatów tęczówki, na podstawie ich płatków i wymiarów sepal. W artykule wspomniano, że Fisher zastosował już podobną technikę do przewidywania płci ludzkich żuchw (kości szczęki) wykopanych w Egipcie, we współpracy z E. S Martinem i Karlem Pearsonem ( jstor ), a także w oddzielnym projekcie pomiaru czaszki z panną Mildred Barnard (której nie mogłem wyśledzić).

Regresja logistyczna

Sama funkcja logistyczna znana jest od XIX wieku, ale przede wszystkim jako model procesów nasycania, takich jak wzrost populacji lub reakcje biochemiczne. Tim prowadzi do powyższego artykułu JS Cramera, który jest niezłą historią jego początków. Jednak do 1969 roku Cox opublikował pierwszą edycję Analizy danych binarnych . Nie mogłem znaleźć oryginału, ale późniejsze wydanie zawiera cały rozdział na temat stosowania regresji logistycznej do przeprowadzania klasyfikacji. Na przykład:

y=0,1xyy

k

kk

Sieci neuronowe

Rosenblatt opublikował raport techniczny opisujący perceptron w 1957 roku, a następnie go z książką , Principles of neurodynamiki w 1962 Continuous wersji wstecznej propagacji błędów, że już od początku 1960 roku, w tym pracy przez Kelley , Bryson i Bryson & HO (zmienionego w 1975, ale oryginał pochodzi z 1969 r . Jednak nie został on zastosowany do sieci neuronowych dopiero trochę później, a metody szkolenia bardzo głębokich sieci są znacznie nowsze. Ten artykuł naukowy na temat głębokiego uczenia się zawiera więcej informacji.

Metody statystyczne

Podejrzewam, że użycie reguły Bayesa do klasyfikacji zostało odkryte i odkryte wiele razy - jest to całkiem naturalna konsekwencja samej reguły. Teoria wykrywania sygnałów opracowała ramy ilościowe do decydowania, czy dane wejście jest „sygnałem” czy szumem. Niektóre z nich powstały w wyniku badań radarowych po II wojnie światowej, ale szybko dostosowano je do eksperymentów percepcyjnych (np. Greena i Swetsa ). Nie wiem, kto odkrył, że zakładanie niezależności między predyktorami działa dobrze, ale wydaje się, że prace z wczesnych lat siedemdziesiątych wykorzystały tę ideę, jak podsumowano w tym artykule . Nawiasem mówiąc, artykuł ten wskazuje również, że Naive Bayes był kiedyś nazywany „idiotycznym Bayesem”!

Obsługa maszyn wektorowych

W 1962 r. Vapnik i Chervonenkis opisali „Ogólny algorytm portretu” ( okropne skanowanie, przepraszam ), który wygląda jak specjalny przypadek maszyny wektorowej wsparcia (lub w rzeczywistości jednoklasowej maszyny SVM). Chervonenkis napisał artykuł zatytułowany „Wczesna historia maszyn wektorów pomocniczych”, w którym opisano to bardziej szczegółowo i ich dalsze działania. Sztuką jądra (jądra jako produkty wewnętrznych) został opisany przez Aizerman, Braverman i Rozonoer w 1964 svms.org ma nieco więcej o historii maszyn wektorów nośnych tutaj .

Matt Krause
źródło
2
Analiza szeregów czasowych rozwiązała również kilka interesujących problemów. Filtry ARMA i Kalman osiągnęły dobry przebieg w latach 50. i 60.
EngrStudent - Przywróć Monikę
1
Ciekawy! Nie wiem prawie tyle o tym ani o jego historii, ale chętnie głosowałbym za odpowiedzią, gdybyś ją napisał!
Matt Krause
3

WYŁĄCZENIE ODPOWIEDZIALNOŚCI : Ta odpowiedź jest niepełna, ale nie mam czasu, aby ją teraz aktualizować. Mam nadzieję, że popracuję nad tym w tym tygodniu.


Pytanie:
jakie były najnowocześniejsze metody rozwiązywania ogólnych problemów prognozowania na podstawie danych około 1969 r.?

Uwaga: nie powtórzy to doskonałej odpowiedzi „Matt Krause”.

„Najnowocześniejszy” oznacza „najlepszy i najnowocześniejszy”, ale niekoniecznie sprowadzony do praktyki jako norma branżowa. Przeciwnie, prawo patentowe USA szuka „nieoczywistego”, zgodnie z definicją „zwykłej umiejętności w dziedzinie”. „Stan techniki” z 1969 r. Został prawdopodobnie opatentowany w ciągu następnej dekady.

Jest bardzo prawdopodobne, że „najlepsze i najjaśniejsze” podejścia z 1969 r. Zostały zastosowane lub ocenione pod kątem zastosowania w ECHELON (1) (2) . Pokaże także w ocenie innego, dość matematycznie supermocarstwa epoki, ZSRR. (3) Wyprodukowanie satelity zajmuje kilka lat, więc można by się spodziewać, że technologia lub treść na następne ~ 5 lat łączności, telemetrii lub satelitów zwiadowczych pokażą stan techniki z 1969 roku. Jednym z przykładów jest satelita meteorologiczny Meteor-2 wystartował w 1967 r., a wstępny projekt ukończono w 1971 r. (4) Inżynieria ładunków spektrometrycznych i aktynometrycznych zależy od możliwości przetwarzania danych w ciągu dnia oraz przewidywanej obsługi danych w „najbliższej przyszłości” czasu. Przetwarzanie tego rodzaju danych jest miejscem, w którym można znaleźć najlepsze praktyki tego okresu.

Przejrzenie „Journal of Optimization Theory and Applications” działało od kilku lat i jego treść jest dostępna. (5) Rozważ tę (6) ocenę optymalnych estymatorów i tę dla rekursywnych estymatorów. (7)

Projekt SETI, rozpoczęty w latach 70. XX wieku, prawdopodobnie wykorzystywał technologie i techniki o niższym budżecie, które były starsze, aby pasowały do ​​technologii tamtych czasów. Eksploracja wczesnych technik SETI może również przemawiać do tego, co uważano za wiodące około 1969 roku. Jednym z prawdopodobnych kandydatów jest prekursor „ walizki SETI ”. „Walizka SETI” wykorzystywała DSP do budowy odbiorników autokorelacyjnych w ~ 130 tys. Wąskopasmowych kanałów. Ludzie z SETI szczególnie chcieli przeprowadzić analizę widma. Podejście to po raz pierwszy zastosowano offline do przetwarzania danych Aricebo. Później podłączono go do radioteleskopu Aricebo w 1978 r. Dla danych na żywo, a wyniki opublikowano w tym samym roku . Rzeczywista Suitecase-SETI została ukończona w 1982 roku. Tutaj (link) to schemat blokowy pokazujący proces.

Podejście polegało na wykorzystaniu off-line długich transformacji Fouriera (~ 64k próbek) do wyszukiwania segmentów pasma, w tym obsługi ćwierkania i kompensacji w czasie rzeczywistym przesunięcia Dopplera. Podejście to jest „nie nowe” i podano odniesienia, w tym: Zobacz, na przykład,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Do narzędzi używanych do przewidywania następnego stanu, biorąc pod uwagę poprzedni stan, które były wówczas popularne, należą:

  • Filtry Kalmana (i pochodne) (Weiner, Bucy, nieliniowe ...)
  • Metody szeregów czasowych (i pochodne)
  • Metody w dziedzinie częstotliwości (Fouriera), w tym filtrowanie i wzmacnianie

Typowe „słowa kluczowe” (lub brzęczące słowa) obejmują „sąsiadujące, wariacyjne, gradientowe, optymalne, drugiego rzędu i sprzężone”.

Założeniem filtru Kalmana jest optymalne mieszanie danych ze świata rzeczywistego z modelem analitycznym i predykcyjnym. Były wykorzystywane do robienia rzeczy takich jak pociski trafiające w ruchomy cel.

EngrStudent
źródło
Dziękujemy za napisanie tego - podoba mi się podejście oparte na aplikacji!
Matt Krause,
@MattKrause - Wciąż muszę się w to włożyć. Uznałem, że podejście oparte na aplikacji będzie w tym przypadku służyć „archeologii matematyki”. Zobaczymy. Ta praca sprawia, że ​​chcę zbudować „walizkę-SETI” i używać jej do rozglądania się po moim ludzkim środowisku przez całe życie, tylko po to, aby dowiedzieć się, co robią narzędzia 50 lat.
EngrStudent - Przywróć Monikę