Mam cztery zmienne numeryczne. Wszystkie są miernikami jakości gleby. Im wyższa zmienna, tym wyższa jakość. Zasięg wszystkich z nich jest inny:
Var1 od 1 do 10
Var2 od 1000 do 2000
Var3 od 150 do 300
Var4 od 0 do 5
Muszę połączyć cztery zmienne w jeden wynik jakości gleby, który z powodzeniem uporządkuje porządek.
Mój pomysł jest bardzo prosty. Standaryzuj wszystkie cztery zmienne, zsumuj je, a cokolwiek otrzymasz, to wynik, który powinien uporządkować rangę. Czy widzisz jakiś problem z zastosowaniem tego podejścia? Czy jest jakieś inne (lepsze) podejście, które poleciłbyś?
Dzięki
Edytować:
Dzięki chłopaki. Dużo dyskusji dotyczyło „wiedzy fachowej w dziedzinie” ... Sprawy rolnicze ... Podczas gdy spodziewałem się więcej statystyk. Jeśli chodzi o technikę, której będę używał ... Prawdopodobnie będzie to proste podsumowanie z-score + regresja logistyczna jako eksperyment. Ponieważ ogromna większość próbek ma słabą jakość 90%, zamierzam połączyć 3 kategorie jakości w jedną i zasadniczo mieć problem binarny (pewna różnica vs brak jakości). Zabijam dwa ptaki jednym kamieniem. Zwiększam swoją próbkę pod względem częstotliwości zdarzeń i korzystam z ekspertów, zachęcając ich do sklasyfikowania moich próbek. Próbki sklasyfikowane przez ekspertów zostaną następnie wykorzystane do dopasowania modelu log-reg, aby zmaksymalizować poziom zgodności / niezgodności z ekspertami… Jak to brzmi dla ciebie?
Ktoś spojrzał na „Recenzję oceny dokładności klasyfikacji zdalnie wykrywanych danych” Russella G. Congaltona z 1990 r.? Opisuje technikę znaną jako macierz błędów do zmieniania macierzy, a także termin, który używa, zwany „danymi normalizującymi”, w którym wszystkie różne wektory są pobierane i „normalizuje się” lub ustawia je na równe od 0 do 1. Zasadniczo zmieniasz wszystkie wektory na równe zakresy od 0 do 1.
źródło
Inną kwestią, o której nie dyskutowałeś, jest skala pomiarów. Wersje V1 i V5 wyglądają tak, jakby były w porządku rangowym, a inne wydają się nie. Więc standaryzacja może wypaczać wynik. Być może lepiej jest przekształcić wszystkie zmienne w rangi i ustalić ważenie dla każdej zmiennej, ponieważ jest bardzo mało prawdopodobne, aby miały taką samą wagę. Równe ważenie jest raczej domyślnym ustawieniem „nie nic”. Być może zechcesz przeprowadzić analizę korelacji lub regresji, aby uzyskać pewne wagi a priori.
źródło
Po odpowiedzi Ralpha Wintersa możesz użyć PCA (analiza głównego składnika) na macierzy odpowiednio ustandaryzowanych wyników. To da ci „naturalny” wektor wagi, którego możesz użyć do połączenia przyszłych wyników.
Zrób to również po przekształceniu wszystkich wyników w szeregi. Jeśli wyniki są bardzo podobne, masz dobre powody, aby kontynuować którąkolwiek z tych metod. W przypadku rozbieżności doprowadzi to do interesujących pytań i lepszego zrozumienia.
źródło