Próbuję zrozumieć kontekst słynnej książki Minsky and Papert „Perceptrons” z 1969 roku, tak krytycznej dla sieci neuronowych.
O ile mi wiadomo, nie było jeszcze innych ogólnych algorytmów uczenia nadzorowanego, z wyjątkiem perceptronu: drzewa decyzyjne zaczęły być naprawdę przydatne dopiero pod koniec lat 70., losowe lasy i maszyny SVM to lata 90. Wydaje się, że metoda jackknife była już znana, ale nie walidacja k-cross (lata 70.) czy bootstrap (1979?).
Wikipedia twierdzi, że klasyczne ramy statystyczne Neymana-Pearsona i Fishera wciąż nie były zgodne w latach 50., mimo że pierwsze próby opisania teorii hybryd były już w latach 40.
Dlatego moje pytanie: jakie były najnowocześniejsze metody rozwiązywania ogólnych problemów prognozowania na podstawie danych?
Odpowiedzi:
Byłem ciekawy tego, więc zacząłem kopać. Byłem zaskoczony, gdy stwierdziłem, że rozpoznawalne wersje wielu popularnych algorytmów klasyfikacji były już dostępne w 1969 r. Linki i cytaty podano poniżej.
Warto zauważyć, że badania AI nie zawsze były tak ukierunkowane na klasyfikację. Dużym zainteresowaniem cieszyło się planowanie i rozumowanie symboliczne, które nie są już modne, a dane oznaczone etykietami były znacznie trudniejsze do znalezienia. Nie wszystkie z tych artykułów mogły być wówczas szeroko dostępne: na przykład praca Proto-SVM została w większości opublikowana w języku rosyjskim. Dlatego może to zawyżać szacunek, jaki przeciętny naukowiec wiedział o klasyfikacji w 1969 roku.
Analiza dyskryminacyjna
W artykule z 1936 r. W Annals of Eugenics , Fisher opisał procedurę znajdowania funkcji liniowej, która rozróżnia trzy gatunki kwiatów tęczówki, na podstawie ich płatków i wymiarów sepal. W artykule wspomniano, że Fisher zastosował już podobną technikę do przewidywania płci ludzkich żuchw (kości szczęki) wykopanych w Egipcie, we współpracy z E. S Martinem i Karlem Pearsonem ( jstor ), a także w oddzielnym projekcie pomiaru czaszki z panną Mildred Barnard (której nie mogłem wyśledzić).
Regresja logistyczna
Sama funkcja logistyczna znana jest od XIX wieku, ale przede wszystkim jako model procesów nasycania, takich jak wzrost populacji lub reakcje biochemiczne. Tim prowadzi do powyższego artykułu JS Cramera, który jest niezłą historią jego początków. Jednak do 1969 roku Cox opublikował pierwszą edycję Analizy danych binarnych . Nie mogłem znaleźć oryginału, ale późniejsze wydanie zawiera cały rozdział na temat stosowania regresji logistycznej do przeprowadzania klasyfikacji. Na przykład:
Sieci neuronowe
Rosenblatt opublikował raport techniczny opisujący perceptron w 1957 roku, a następnie go z książką , Principles of neurodynamiki w 1962 Continuous wersji wstecznej propagacji błędów, że już od początku 1960 roku, w tym pracy przez Kelley , Bryson i Bryson & HO (zmienionego w 1975, ale oryginał pochodzi z 1969 r . Jednak nie został on zastosowany do sieci neuronowych dopiero trochę później, a metody szkolenia bardzo głębokich sieci są znacznie nowsze. Ten artykuł naukowy na temat głębokiego uczenia się zawiera więcej informacji.
Metody statystyczne
Podejrzewam, że użycie reguły Bayesa do klasyfikacji zostało odkryte i odkryte wiele razy - jest to całkiem naturalna konsekwencja samej reguły. Teoria wykrywania sygnałów opracowała ramy ilościowe do decydowania, czy dane wejście jest „sygnałem” czy szumem. Niektóre z nich powstały w wyniku badań radarowych po II wojnie światowej, ale szybko dostosowano je do eksperymentów percepcyjnych (np. Greena i Swetsa ). Nie wiem, kto odkrył, że zakładanie niezależności między predyktorami działa dobrze, ale wydaje się, że prace z wczesnych lat siedemdziesiątych wykorzystały tę ideę, jak podsumowano w tym artykule . Nawiasem mówiąc, artykuł ten wskazuje również, że Naive Bayes był kiedyś nazywany „idiotycznym Bayesem”!
Obsługa maszyn wektorowych
W 1962 r. Vapnik i Chervonenkis opisali „Ogólny algorytm portretu” ( okropne skanowanie, przepraszam ), który wygląda jak specjalny przypadek maszyny wektorowej wsparcia (lub w rzeczywistości jednoklasowej maszyny SVM). Chervonenkis napisał artykuł zatytułowany „Wczesna historia maszyn wektorów pomocniczych”, w którym opisano to bardziej szczegółowo i ich dalsze działania. Sztuką jądra (jądra jako produkty wewnętrznych) został opisany przez Aizerman, Braverman i Rozonoer w 1964 svms.org ma nieco więcej o historii maszyn wektorów nośnych tutaj .
źródło
WYŁĄCZENIE ODPOWIEDZIALNOŚCI : Ta odpowiedź jest niepełna, ale nie mam czasu, aby ją teraz aktualizować. Mam nadzieję, że popracuję nad tym w tym tygodniu.
Pytanie:
jakie były najnowocześniejsze metody rozwiązywania ogólnych problemów prognozowania na podstawie danych około 1969 r.?
Uwaga: nie powtórzy to doskonałej odpowiedzi „Matt Krause”.
„Najnowocześniejszy” oznacza „najlepszy i najnowocześniejszy”, ale niekoniecznie sprowadzony do praktyki jako norma branżowa. Przeciwnie, prawo patentowe USA szuka „nieoczywistego”, zgodnie z definicją „zwykłej umiejętności w dziedzinie”. „Stan techniki” z 1969 r. Został prawdopodobnie opatentowany w ciągu następnej dekady.
Jest bardzo prawdopodobne, że „najlepsze i najjaśniejsze” podejścia z 1969 r. Zostały zastosowane lub ocenione pod kątem zastosowania w ECHELON (1) (2) . Pokaże także w ocenie innego, dość matematycznie supermocarstwa epoki, ZSRR. (3) Wyprodukowanie satelity zajmuje kilka lat, więc można by się spodziewać, że technologia lub treść na następne ~ 5 lat łączności, telemetrii lub satelitów zwiadowczych pokażą stan techniki z 1969 roku. Jednym z przykładów jest satelita meteorologiczny Meteor-2 wystartował w 1967 r., a wstępny projekt ukończono w 1971 r. (4) Inżynieria ładunków spektrometrycznych i aktynometrycznych zależy od możliwości przetwarzania danych w ciągu dnia oraz przewidywanej obsługi danych w „najbliższej przyszłości” czasu. Przetwarzanie tego rodzaju danych jest miejscem, w którym można znaleźć najlepsze praktyki tego okresu.
Przejrzenie „Journal of Optimization Theory and Applications” działało od kilku lat i jego treść jest dostępna. (5) Rozważ tę (6) ocenę optymalnych estymatorów i tę dla rekursywnych estymatorów. (7)
Projekt SETI, rozpoczęty w latach 70. XX wieku, prawdopodobnie wykorzystywał technologie i techniki o niższym budżecie, które były starsze, aby pasowały do technologii tamtych czasów. Eksploracja wczesnych technik SETI może również przemawiać do tego, co uważano za wiodące około 1969 roku. Jednym z prawdopodobnych kandydatów jest prekursor „ walizki SETI ”. „Walizka SETI” wykorzystywała DSP do budowy odbiorników autokorelacyjnych w ~ 130 tys. Wąskopasmowych kanałów. Ludzie z SETI szczególnie chcieli przeprowadzić analizę widma. Podejście to po raz pierwszy zastosowano offline do przetwarzania danych Aricebo. Później podłączono go do radioteleskopu Aricebo w 1978 r. Dla danych na żywo, a wyniki opublikowano w tym samym roku . Rzeczywista Suitecase-SETI została ukończona w 1982 roku. Tutaj (link) to schemat blokowy pokazujący proces.
Podejście polegało na wykorzystaniu off-line długich transformacji Fouriera (~ 64k próbek) do wyszukiwania segmentów pasma, w tym obsługi ćwierkania i kompensacji w czasie rzeczywistym przesunięcia Dopplera. Podejście to jest „nie nowe” i podano odniesienia, w tym: Zobacz, na przykład,
Do narzędzi używanych do przewidywania następnego stanu, biorąc pod uwagę poprzedni stan, które były wówczas popularne, należą:
Typowe „słowa kluczowe” (lub brzęczące słowa) obejmują „sąsiadujące, wariacyjne, gradientowe, optymalne, drugiego rzędu i sprzężone”.
Założeniem filtru Kalmana jest optymalne mieszanie danych ze świata rzeczywistego z modelem analitycznym i predykcyjnym. Były wykorzystywane do robienia rzeczy takich jak pociski trafiające w ruchomy cel.
źródło