W tym semestrze mam kurs uczenia maszynowego, a profesor poprosił nas o znalezienie problemu w świecie rzeczywistym i rozwiązanie go jedną z metod uczenia maszynowego przedstawionych na zajęciach, takich jak:
- Drzewa decyzyjne
- Sztuczne sieci neuronowe
- Obsługa maszyn wektorowych
- Nauczanie oparte na instancjach ( kNN , LWL )
- Bayesian Networks
- Uczenie się przez wzmocnienie
Jestem jednym z fanów przelewania stosów i wymiany stosów i wiem, że zrzuty tych witryn są udostępniane publicznie, ponieważ są niesamowite! Mam nadzieję, że uda mi się znaleźć dobre wyzwanie w zakresie uczenia maszynowego dotyczące tych baz danych i rozwiązać je.
Mój pomysł
Przyszedł mi do głowy pomysł przewidywania tagów pytań na podstawie wprowadzonych słów w treści pytania. Myślę, że sieć bayesowska jest właściwym narzędziem do uczenia się znaczników do pytania, ale wymaga dalszych badań. W każdym razie, po fazie uczenia się, kiedy użytkownik kończy wprowadzanie pytania, należy mu zasugerować kilka tagów.
Proszę powiedz mi :
Chcę zapytać społeczność statystyk jako doświadczonych ludzi o ML dwa pytania:
Czy uważasz, że sugestia tagu to przynajmniej problem, który ma szansę rozwiązać? Czy masz jakieś porady na ten temat? Martwię się trochę, ponieważ stackexchange nie implementuje jeszcze takiej funkcji.
Czy masz jakiś inny / lepszy pomysł na projekt ML oparty na bazie danych Stackexchange? Naprawdę trudno mi znaleźć coś do nauczenia się w bazach danych stackexchange.
Uwagi na temat błędów bazy danych: Chciałbym wskazać, że chociaż bazy danych są ogromne i mają wiele instancji, nie są idealne i są podatne na błędy. Oczywistym jest niewiarygodny wiek użytkowników. Nawet wybrane tagi do pytania nie są w 100% poprawne. W każdym razie powinniśmy wziąć pod uwagę procent poprawności danych przy wyborze problemu.
Rozważanie na temat samego problemu: Mój projekt nie powinien dotyczyć data-mining
czegoś takiego. Powinno to być po prostu zastosowanie metod ML w świecie rzeczywistym.
źródło
Myślałem też o przewidywaniu tagów, podoba mi się ten pomysł. Mam wrażenie, że jest to możliwe, ale może zajść potrzeba rozwiązania wielu problemów, zanim dotrzesz do ostatecznego zestawu danych. Spekuluję więc, że przewidywanie tagów może wymagać dużo czasu. Oprócz nieprawidłowych znaczników rolę może odgrywać limit maksymalnie 5 znaczników. Ponadto niektóre tagi są podkategoriami innych (np. „Wielokrotne porównania” można postrzegać jako podkategorię „testowania istotności”).
Nie sprawdzałem, czy czasy do głosowania są zawarte w bazie danych do pobrania, ale prostszym i wciąż interesującym projektem może być przewidywanie „ostatecznej” liczby głosów (może po 5 miesiącach) w kwestii zależnej od głosów początkowych, i czas przyjęcia odpowiedzi.
źródło
To dobre pytanie. Ja również myślałem, że publicznie dostępne zestawy danych StackExchange będą dobrym przedmiotem do analizy. Są one na tyle niezwykłe, że mogą być również dobrym testem dla nowych metod statystycznych. Posiadanie tak dużej ilości dobrze ustrukturyzowanych danych jest w każdym razie niezwykłe.
kardynał zasugerował kilka rzeczy, które byłyby przydatne dla StackExchange. Nie ograniczę się do tego.
Oto jeden oczywisty kandydat do analizy, choć nie ma oczywistego zastosowania, które przychodzi mi na myśl. Jest to zauważalny efekt, że użytkownicy o wysokich powtórzeniach częściej zdobywają głosy poparcia, przy czym inne rzeczy są równe. Jednak efekt ten prawdopodobnie nie jest trywialny w modelowaniu. Ponieważ nie możemy bardzo łatwo porównać użyteczności między użytkownikami, oczywistym podejściem byłoby założenie, że odpowiedzi użytkowników były zawsze równie przydatne (ogólnie nieprawdziwe, ale trzeba gdzieś zacząć), a następnie dodać inflacyjny termin, aby uwzględnić jego rosnącą reputację . Można by wtedy (jak sądzę) dodać pewne terminy, które wyjaśniałyby jego odpowiedzi w miarę zwiększania doświadczenia. Być może można to rozwiązać za pomocą pewnego rodzaju szeregów czasowych. Nie jestem pewien, jak wpływałby na to interwał danych. To może być interesujące ćwiczenie.
Dodam więcej przykładów, jeśli / kiedy o nich pomyślę.
Czy ktoś wie o badaniach statystycznych opartych na danych SE? Izaak wspomniał również, że dane zawierają błędy. Czy ktoś wie coś więcej na ten temat?
źródło