Chciałbym przetestować nowy algorytm wspólnego filtrowania . Typowym przypadkiem użycia jest polecanie filmów na podstawie preferencji użytkowników podobnych do konkretnego użytkownika.
Jakie są typowe zestawy danych porównawczych, których naukowcy często używają do testowania swoich algorytmów? Wiem, że w ramach Computer Vision ludzie często używają MNIST lub CIFAR, ale nie znalazłem podobnych zestawów danych do wspólnego filtrowania.
Odpowiedzi:
Oczywistą odpowiedzią byłby zestaw nagród Netflix, jest wiele badań i większość algorytmów CF ma w nim oceny.
Istnieją inne dostępne zestawy danych, które są zwykle używane jako punkty odniesienia:
Obiektyw filmowy Zestaw danych : zestaw danych o wartości 20 milionów ocen używany do testowania algorytmów CF;
Jester Dataset : zestaw danych rekomendacji żartów z ponad 6 milionami ocen;
W tym łączu można znaleźć wiele innych zestawów danych
źródło
Mam repozytorium, które może ci pomóc.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
źródło