Powszechnie wiadomo, że „Korelacja nie jest równoznaczna z przyczynowością”, ale uczenie maszynowe wydaje się prawie w całości oparte na korelacji. Pracuję nad systemem do oceny wyników uczniów na podstawie pytań na podstawie ich poprzednich osiągnięć. W przeciwieństwie do innych zadań, takich jak wyszukiwarka Google, nie wygląda to na taki system, w który można łatwo grać - więc związek przyczynowy nie jest tak naprawdę istotny w tym zakresie.
Oczywiście, jeśli chcemy przeprowadzić eksperymenty w celu optymalizacji systemu, będziemy musieli dbać o rozróżnienie korelacja / związek przyczynowy. Ale czy z punktu widzenia samej budowy systemu wybierania pytań, które mogą mieć odpowiedni poziom trudności, to rozróżnienie ma jakieś znaczenie?
machine-learning
statistics
Casebash
źródło
źródło
Odpowiedzi:
Nie wszystkie AI działają na korelację, Bayesian Belief Networks zbudowane są wokół prawdopodobieństwa, że A powoduje B.
Nie sądzę, że potrzebujesz do tego przyczyn. Dotychczasowe wyniki nie powodują bieżącego działania. Odpowiedź na pierwsze pytanie nie powoduje odpowiedzi na późniejsze pytanie.
Nie, nie dla twojego przykładu. Myślę, że korelacja (lub nawet zwykła ekstrapolacja) rozwiązałaby twój problem bardzo dobrze. Przypisz poziom trudności do każdego z pytań, a następnie zadawaj pytania uczniom na coraz trudniejszych poziomach (tak działa większość egzaminów), a następnie, gdy uczeń zacznie je mylnie, możesz cofnąć trudność. Jest to algorytm sprzężenia zwrotnego podobny do minimalizacji błędów przeprowadzanej na neuronie w wielowarstwowym perceptronie. Nietrywialna część takich miejsc wejściowych decyduje o tym, jakie trudne pytanie!
Lepszym przykładem związku przyczynowego w AI byłoby:
W takim przypadku brak paliwa spowodował zwolnienie prędkości samochodu. Właśnie taki problem rozwiązują Bayesian Belief Networks.
źródło
Nie sądzę, przynajmniej ogólnie. Na przykład głównym założeniem algorytmów ML w zakresie analizy PAC i analizy wymiarów VC jest to, że dane szkoleniowe / testowe pochodzą z tego samego rozkładu, co przyszłe dane.
Tak więc w twoim systemie należy założyć, że każdy uczeń narzuca pewien warunkowy rozkład prawdopodobieństwa, który generuje odpowiedzi na określone typy pytań na określone tematy. Kolejnym i bardziej problematycznym założeniem, które musisz przyjąć, jest to, że ten rozkład się nie zmienia (lub nie zmienia się szybko).
źródło
Zgadzam się z wcześniejszymi odpowiedziami.
Jeśli jednak chcesz spojrzeć na korelację / związek przyczynowy w ogólności, dwa elementy, na które możesz chcieć spojrzeć, to:
źródło
Oprócz innych odpowiedzi istnieje ciekawy temat - jeśli ręcznie wybierasz funkcje, możesz pomyśleć o „przypadkowej korelacji”, aby zmniejszyć nadmierne dopasowanie, tj. Unikać funkcji, które w jakiś sposób są skorelowane w danych treningowych, ale nie nie powinno być skorelowane w ogólnym przypadku - że nie ma żadnego związku przyczynowego.
Jako przybliżony przykład załóżmy, że weźmiesz tabelę danych historycznych wyników egzaminów i spróbujesz przewidzieć kryteria zaliczenia / zaliczenia; po prostu dołączasz wszystkie dostępne pola danych jako funkcje, a tabela ma również urodziny uczniów. Teraz może istnieć ważna korelacja w danych szkoleniowych, że uczniowie urodzeni 12 lutego prawie zawsze przechodzą, a uczniowie urodzeni 13 lutego prawie zawsze zawodzą ... ale ponieważ nie ma związku przyczynowego, należy to wykluczyć.
W prawdziwym życiu jest to nieco bardziej subtelne, ale pomaga odróżnić korelacje, które pasują do twoich danych do prawidłowych sygnałów, których należy się nauczyć; oraz korelacje, które są po prostu wzorami powodowanymi przez przypadkowy hałas w zestawie treningowym.
źródło