Mediany, tryby, percentyle i OLAP

9

Jestem nowicjuszem próbującym owinąć głowę wokół OLAP i mam kilka pytań.

  • Pytanie 1: Czy kostka OLAP może przechowywać mediany, tryby, percentyle?
  • Pytanie 2: Czy zapytanie MDX napisane przez użytkownika może zwrócić podsumowanie danych na poziomie wiersza? (np .:% transakcji> 100 USD). A może projektant kostki musi to dodać do kostki?
  • Pytanie 3: Czy jakiekolwiek produkty OLAP zapewniają teraz mechanizmy dostępu do danych na poziomie wiersza? Który?

Nasz dział IT szuka informacji zwrotnych na temat tego, jakie problemy mamy z konkretną kostką ROLAP usług MS Analsis. Nie mamy dostępu do relacyjnej bazy danych za nią i musimy wykonać obliczenia, które obecnie nie są dostępne jako miary w kostce.

Zobaczę, czy mam to prawo.

  1. Kostka może dostarczać statystyki dla zliczeń, średnich, proporcji, odchyleń standardowych.
  2. Jeśli dana statystyka nie została uwzględniona w określonej metodzie dostarczonej przez projektanta kostki, czy możemy napisać zapytanie MDX, aby je uzyskać? Czy też muszą zmienić kostkę, aby wstępnie obliczyć ją z danych na poziomie wiersza?
  3. Kostka nie może dostarczyć statystyk takich jak mediany, tryby lub percentyle, ponieważ statystyki te nie agregują się poprawnie.

Czytam Grammar of Graphics Lelanda Wilkinsona, a także w swoim rozdziale dotyczącym eksploracji danych i OLAP

Te [operacje kostki] działają dobrze ze statystykami takimi jak liczby, średnie, proporcje i odchylenia standardowe. Proste agregacje w podklasach można obliczyć, operując na sumach, sumach kwadratów i innych terminach, które są łączone w funkcje liniowe w celu uzyskania podstawowych statystyk podsumowujących.

Nie działają one poprawnie ze statystykami takimi jak mediana, tryb i percentyle, ponieważ agregacja tych statystyk nie jest statystyką ich agregatów. Mediana median nie jest na przykład medianą agregatu.

Następnie dodaje:

Jednak ostatnio pojawił się bardziej wyrafinowany model ROLAP. Za pomocą kilku technologii można zapewnić algorytmom statystycznym dostęp do surowych danych za pomocą modelu relacyjnego w czasie rzeczywistym. To podejście jest bardziej obiecujące niż sztywne agregacje oferowane przez struktury takie jak kostki danych.

W najbardziej eleganckiej formie tej architektury aplikacje mogą żądać zdalnych połączeń w celu dostarczenia informacji o metodach przetwarzania danych i podjęcia odpowiednich działań w zależności od zwracanych informacji. W tej formie architektura komponentów może osiągnąć prawdziwą obietnicę przetwarzania rozproszonego: projektowanie i wykonywanie niezależne od strony, systemu operacyjnego lub języka.

Zostało to napisane około 2005 roku. Czy ktoś wie o produktach wykorzystujących tę metodologię, aby umożliwić dostęp do danych na poziomie wiersza?

Tommy O'Dell
źródło
1
Brak chętnych? Wszelkie sugestie dotyczące sposobu ulepszenia pytania w celu uzyskania odpowiedzi?
Tommy O'Dell,

Odpowiedzi:

5

Aby odpowiedzieć na pytania w kolejności:

  1. Kostka nie przechowuje median, trybów (a nawet średnich), ale możesz pisać zapytania, które je obliczają i osadzać je jako obliczone miary w kostce. Możliwość osadzenia tego rodzaju obliczeń jest jednym z głównych unikalnych punktów sprzedaży technologii OLAP.
  2. Jeśli masz wymiar, który może identyfikować poszczególne wiersze (który może być zdegenerowanym lub „faktycznym” wymiarem pochodzącym z identyfikatora w tabeli faktów), możesz wykonać zapytanie na podstawie poszczególnych wierszy. Jednak OLAP działa pod względem wymiarów i agregatów, dlatego trzeba mieć wymiar umożliwiający identyfikację poszczególnych wierszy (z agregatem złożonym z jednej wartości).
  3. Każde narzędzie OLAP może robić to, co opisano w (2), a ponadto ogólnie obsługują mechanizm znany jako „drążenie wszerz”, w którym sześcian zwróci zakres danych transakcyjnych leżący u podstaw danego wycinka, w który drążymy.

Jeśli chcesz wykonywać obliczenia, które nie są bezpośrednio dostępne w skrypcie kostki, wiele narzędzi OLAP, takich jak późna, lamentowana ProClarity, pozwoli ci formułować zapytania dotyczące niestandardowych obliczeń opartych na MDX. O ile kostka nie zawiera informacji potrzebnych do wykonania rzeczywistych obliczeń, niestandardowe obliczenia MDX powinny być w stanie obsłużyć wszelkie potrzebne obliczenia.

Chociaż zapytania OLAP są tradycyjnie łączone z zapytaniami statystycznymi łącznie, jeśli masz wymiar, który umożliwia drążenie w dół do szczegółów, z pewnością możliwe jest sformułowanie zapytań, które obliczą mediany, percentyle lub zapytania histogramowe, na podstawie których można wyprowadzić lub obliczyć tryby.

Na przykład jest to przykład zapytania do analizy pareto , opartego na rankingach.

Wiele produktów kostki może działać w hybrydowym lub relacyjnym trybie OLAP, w którym same nie utrwalają danych, ale odpytują je w bazowej bazie danych. Ponadto czyste narzędzia ROLAP, takie jak Business Objects, Report Builder lub Discoverer, mogą wyszukiwać dane w bazowej bazie danych i wykonywać prace wiersz po wierszu. Jednak zwykle brakuje im wyrafinowania dedykowanych produktów OLAP i nie mają zbyt wielu możliwości analizy statystycznej po wyjęciu z pudełka.

ConcernedOfTunbridgeWells
źródło