Największy percentyl według grup

2

każdy. Czy ktoś może mi pomóc w następujących kwestiach? Wszelkie wskazówki lub pomoc są mile widziane!

Mam podzbiór zestawu danych z +500 000 wierszy, który wygląda następująco

|— Group —|— Name —|— Value1 —|— Value2 —|

W ramach każdej grupy próbuję zidentyfikować nazwy w pierwszej piątce i górnym 10 percentylu wartości 1 , aby móc przystąpić do obliczania sumy wartości 2 dla każdego zidentyfikowanego percentyla.

Do tej pory udało mi się stworzyć tabelę przestawną, która wygląda tak.

           |----------|--Sum Val1--|--Sum Val2--|
|--GroupA--|----------|     Totals for GroupA
|----------|-Name A1--|     Values.......
|----------|-Name A2--|     Values.......
    ...
|----------|-Name An--|     Values.......
|--GroupB--|----------|     Totals for GroupB
    ...                     Values.......
|--GroupZ--|----------|     Totals for GroupZ

Mógłbym ręcznie zidentyfikować percentyle, ale wyobrażam sobie, że istnieje łatwiejszy sposób. Przeprowadziłem kilka wyszukiwań dotyczących tego, jak postępować, ale spotykam tylko procedury, aby znaleźć percentyle w całym zbiorze danych.

HolaGonzalo
źródło
1
Wygląda na to, że prezentujesz wiersz nagłówka dla niektórych danych oraz schemat produktu pośredniego, który Twoim zdaniem może być przydatny, ale nie zapewnia Ci tego, czego chcesz. Spróbuj opublikować niektóre rzeczywiste dane wraz z nagłówkami i szablonami oraz reprezentację wyników, które chcesz dla tych danych wejściowych. Nie muszą to być rzeczywiste dane na żywo - w rzeczywistości lepiej, jeśli tak nie jest. Grupami mogą być „kot”, „pies”, „lis”, „czerwony”, „niebieski”, „zielony” itp .; imiona mogą być „Tom”, „Dick”, „Harry”, „John”, Paul ”, George” i „Ringo”; wartości mogą wynosić 1, 2, 4, 8, 10, 20, 40, 80.… (ciąg dalszy)
G-Man
(Ciąg dalszy)… Nie odpowiadaj w komentarzach; edytuj swoje pytanie, aby było jaśniejsze i bardziej kompletne.
G-Man,
Nie sądzę, by byłby na to łatwy sposób. Prawdopodobnie potrzebujesz pomocniczych kolumn, w których obliczasz sumę według kategorii ( SUMIF) i percentyla ( LARGE, SUMIFS).
Máté Juhász

Odpowiedzi:

1

Sposób konfiguracji tabeli przestawnej, stosując filtr 10 najlepszych, aby Namesznaleźć górę Namesw każdym z nich Group. Jeśli chcesz znaleźć najlepsze Namesmiejsce w klasyfikacji ogólnej, musisz umieścić Namespole przed Grouppolem.

Oto makieta, którą wykonałem:

Oryginał

Kiedy filtruję do Top 2 Names:

Najlepsze 2 nazwy

Kiedy umieszczam Namesjako górne pole, a następnie filtruję do góry 2:

Poprawione 2 najlepsze nazwy


Jak sugerowano w komentarzach, możesz również dodać kolumny pomocnicze do oryginalnych danych, które obliczają wpływ każdego wiersza, a następnie określają, czy jest w pierwszej dziesiątce i zwracają PRAWDA / FAŁSZ. Następnie możesz zastosować filtr do tabeli przestawnej, aby wyświetlać tylko te z PRAWDĄ w tym polu.

Inżynier Toast
źródło