Przeszukałem wiele stron internetowych, aby dowiedzieć się, co dokładnie zrobi winda? Wszystkie znalezione przeze mnie wyniki dotyczyły używania go w aplikacjach innych niż samo.
Wiem o funkcji wsparcia i zaufania. Z Wikipedii, w eksploracji danych, lift jest miarą wydajności modelu w przewidywaniu lub klasyfikowaniu przypadków, mierząc w stosunku do modelu losowego wyboru. Ale jak? Zaufanie * wsparcie jest wartością windą Przeszukałem też inne formuły, ale nie rozumiem, dlaczego wykresy wind są ważne w dokładności przewidywanych wartości Mam na myśli, że chcę wiedzieć, jakie zasady i powody stoją za windą?
data-mining
Nickool
źródło
źródło
Odpowiedzi:
Podam przykład, jak przydatne jest „podnoszenie” ...
Wyobraź sobie, że prowadzisz kampanię mailową, w której wysyłasz klientom oferty w nadziei, że odpowiedzą. Dane historyczne pokazują, że kiedy wysyłasz bazę klientów całkowicie losowo, około 8% z nich odpowiada na wysyłkę (tzn. Przychodzą i robią zakupy z ofertą). Jeśli więc wysyłasz 1000 klientów, możesz spodziewać się 80 osób odpowiadających.
Teraz decydujesz się dopasować model regresji logistycznej do swoich danych historycznych, aby znaleźć wzorce, które przewidują, czy klient może odpowiedzieć na przesyłkę. Korzystając z modelu regresji logistycznej, każdemu klientowi przypisuje się prawdopodobieństwo odpowiedzi i możesz ocenić dokładność, ponieważ wiesz, czy faktycznie odpowiedział. Po przypisaniu prawdopodobieństwa każdemu klientowi, klasyfikujesz go od klienta o najwyższej do najniższej punktacji. Następnie możesz wygenerować kilka grafik typu „lift”:
Na razie zignoruj górną tabelę. Dolny wykres mówi, że po posortowaniu klientów na podstawie ich prawdopodobieństwa odpowiedzi (od wysokiego do niskiego), a następnie podzieleniu ich na dziesięć równych przedziałów, wskaźnik odpowiedzi w bin nr 1 (10% najlepszych klientów) wynosi 29 % vs 8% losowych klientów, dla wzrostu o 29/8 = 3,63. Zanim dotarliśmy do ocenianych klientów w czwartym pojemniku, udało nam się uchwycić tak wiele poprzednich trzech, że wskaźnik odpowiedzi jest niższy niż oczekiwany losowo wysyłanie wiadomości do osób.
Patrząc teraz na najwyższy wykres, mówi się, że jeśli użyjemy ocen prawdopodobieństwa u klientów, możemy uzyskać 60% wszystkich respondentów, którzy otrzymalibyśmy losowo, wysyłając tylko 30% najlepszych klientów. Oznacza to, że za pomocą tego modelu możemy uzyskać 60% oczekiwanego zysku za 30% kosztu przesyłki, wysyłając tylko 30% najlepszych klientów, którzy tak ocenili, i właśnie o tym tak naprawdę mówi wzrost .
źródło
Wykresy wzrostu przedstawiają stosunek odpowiedzi modelu do braku tego modelu. Zazwyczaj jest reprezentowany przez procent przypadków w X i liczbę razy lepszą odpowiedź w osi Y. Na przykład model z windą = 2 w punkcie 10% oznacza:
Bez żadnego modelu przyjmującego 10% populacji (bez kolejności, ponieważ nie ma modelu) odsetek y = 1 wynosiłby 10% całkowitej populacji przy y = 1.
Dzięki modelowi otrzymujemy 2-krotność tej proporcji, tj. Oczekujemy, że otrzymamy 20% całkowitej populacji przy y = 1. W etykiecie znaku X reprezentuje dane uporządkowane według prognozy. Pierwsze 10% to 10% najlepszych prognoz
źródło
Podnoszenie to nic innego jak stosunek pewności do oczekiwanej pewności. W obszarze reguł asocjacji - „Współczynnik wzrostu większy niż 1,0 oznacza, że związek między poprzednikiem a konsekwencją jest bardziej znaczący niż można by oczekiwać, gdyby dwa zestawy były niezależne. Im wyższy współczynnik wzrostu, tym bardziej znaczące jest powiązanie. „ Na przykład-
jeśli baza danych supermarketów zawiera 100 000 transakcji w punkcie sprzedaży, z czego 2 000 zawiera zarówno pozycje A, jak i B, a 800 z nich obejmuje pozycję C, reguła powiązania „Jeśli kupione są A i B, wówczas C jest kupowane na tym samym trip ”ma obsługę 800 transakcji (alternatywnie 0,8% = 800/100 000) i pewność 40% (= 800/2000). Jednym ze sposobów myślenia o wsparciu jest to, że istnieje prawdopodobieństwo, że losowo wybrana transakcja z bazy danych będzie zawierać wszystkie pozycje w poprzedniku i w konsekwencji, natomiast pewność jest warunkowym prawdopodobieństwem, że losowo wybrana transakcja obejmie wszystkie pozycje w w konsekwencji, biorąc pod uwagę, że transakcja obejmuje wszystkie pozycje w poprzedniej części.
Korzystając z powyższego przykładu, oczekiwane zaufanie w tym przypadku oznacza „zaufanie, jeśli zakup A i B nie zwiększa prawdopodobieństwa zakupu C.” Jest to liczba transakcji, które zawierają wynik, podzielona przez całkowitą liczbę transakcji. Załóżmy, że łączna liczba transakcji dla C wynosi 5000. Tak więc oczekiwane zaufanie wynosi 5 000/1 000 000 = 5%. Na przykład w supermarkecie Lift = Zaufanie / Oczekiwane Zaufanie = 40% / 5% = 8. Stąd, Lift jest wartością, która daje nam informacje o wzroście prawdopodobieństwa wtedy (w konsekwencji) biorąc pod uwagę część (poprzednią). oto link do artykułu źródłowego
źródło
Podnoszenie jest tylko miarą do zmierzenia znaczenia reguły
jego miarą jest sprawdzenie, czy ta reguła jest przypadkowa na liście, czy też oczekujemy
Wzrost = pewność siebie / oczekiwana pewność siebie
źródło
Załóżmy, że korzystamy z przykładu sklepu spożywczego, który testuje ważność reguły stowarzyszenia, która ma poprzednik i konsekwencję (na przykład: „Jeśli klient kupi chleb, kupi również masło”).
Jeśli spojrzysz na wszystkie transakcje i zbadasz jedną losowo, prawdopodobieństwo, że transakcja zawiera konsekwencję, to „Oczekiwane zaufanie”. Jeśli spojrzysz na wszystkie transakcje zawierające poprzednik i wybierzesz z nich losową transakcję, prawdopodobieństwo, że transakcja będzie zawierała następstwo, to „Pewność”. „Podnoszenie” jest zasadniczo różnicą między tymi dwoma. Dzięki windie możemy zbadać związek między dwoma przedmiotami o wysokim poziomie ufności (jeśli zaufanie jest niskie, wówczas wzrost jest w zasadzie nieistotny).
Jeśli mają wysoką pewność siebie i niski wzrost, to nadal wiemy, że przedmioty są często kupowane razem, ale nie wiemy, czy konsekwencja dzieje się z powodu poprzednika, czy to tylko zbieg okoliczności (być może oba są kupowane razem, ponieważ oba produkty są bardzo popularne, ale nie mają ze sobą żadnego związku).
Jeśli jednak zarówno pewność, jak i wzrost są wysokie, możemy rozsądnie założyć, że konsekwencja dzieje się z powodu poprzednika. Im wyższy wzrost, tym mniejsze prawdopodobieństwo, że związek między dwoma przedmiotami jest tylko zbiegiem okoliczności. W kategoriach matematycznych:
Wzrost = pewność siebie / oczekiwana pewność siebie
W naszym przykładzie, jeśli pewność naszej reguły była wysoka, a wzrost był niski, oznaczałoby to, że wielu klientów kupuje chleb i masło, ale nie wiemy, czy wynika to z jakiegoś szczególnego związku między chlebem a masłem, czy chleb i masło są po prostu popularnymi artykułami indywidualnie, a fakt, że często pojawiają się razem w koszykach spożywczych, to tylko przypadek. Jeśli zaufanie do naszej reguły jest wysokie, a wzrost jest wysoki, oznacza to dość silną korelację między poprzednikiem a konsekwencją, co oznacza, że możemy rozsądnie założyć, że klienci kupują masło, ponieważ kupują chleb. Im wyższy wzrost, tym większa pewność siebie w tym skojarzeniu.
źródło