Załóżmy, że chcę zbudować model, aby przewidzieć pewien stosunek lub procent. Na przykład, powiedzmy, że chcę przewidzieć liczbę chłopców w porównaniu z dziewczynami, którzy wezmą udział w imprezie, a cechami imprezy, których mogę użyć w modelu, są między innymi ilość reklamy na imprezę, wielkość miejsca, czy to tam na przyjęciu będzie jakikolwiek alkohol itp. (To tylko wymyślony przykład; funkcje nie są tak naprawdę ważne).
Moje pytanie brzmi: jaka jest różnica między przewidywaniem stosunku a procentem i jak zmienia się mój model w zależności od tego, który wybiorę? Czy jedno jest lepsze od drugiego? Czy jakaś inna funkcja jest lepsza od którejkolwiek z nich? (Tak naprawdę nie dbam o konkretną liczbę proporcji w stosunku do procentu; chcę tylko móc określić, które strony są bardziej prawdopodobne na „imprezy dla chłopców” vs. „imprezy dla dziewcząt”). Na przykład myślący:
- Jeśli chcę przewidzieć procent (powiedzmy,
# boys / (# boys + # girls)
ponieważ moja funkcja zależna jest ograniczona od 0 do 1, prawdopodobnie powinienem użyć czegoś takiego jak regresja logistyczna zamiast regresji liniowej. - Jeśli chcę przewidzieć stosunek (powiedzmy
# boys / # girls
lub# boys / (1 + # girls)
uniknąć błędów dzielenia przez zero), to moja zależna cecha jest dodatnia, więc czy powinienem zastosować jakąś transformację (log?) Przed użyciem regresji liniowej? (Lub jakiś inny model? Jakie modele regresji stosuje się w przypadku dodatnich, niezliczonych danych?) - Czy ogólnie lepiej jest przewidzieć (powiedzmy) procent zamiast stosunku, a jeśli tak, to dlaczego?
źródło
Odpowiedzi:
źródło
Powtarzając pierwszą odpowiedź. Nie przejmuj się konwersją - po prostu modeluj liczby i współzmienne bezpośrednio.
Jeśli to zrobisz i dopasujesz model regresji dwumianowej (lub równoważnie logistycznej) do dziewczynki, liczy się to, jeśli wybierzesz zwykłą funkcję linku dla takich modeli, domyślnie już dopasujesz stosunek (zarejestrowany wygładzony) chłopców do dziewcząt. To predyktor liniowy.
Podstawowym powodem modelowania jest liczenie bezpośrednio, a nie proporcje lub proporcje, ponieważ nie tracisz informacji. Intuicyjnie byłbyś o wiele bardziej przekonany o wnioskach z zaobserwowanego stosunku 1 (chłopców do dziewcząt), gdyby wynikało to ze 100 chłopców i 100 dziewcząt niż z 2 i 2. W konsekwencji, jeśli masz zmienne towarzyszące, będziesz miał więcej informacje o ich skutkach i potencjalnie lepszy model predykcyjny.
źródło