Próbuję zrozumieć, jak prawidłowo przechowywać zamówione informacje w relacyjnej bazie danych.
Przykład:
Powiedz, że mam listę odtwarzania, na którą składają się utwory. W mojej relacyjnej bazie danych mam tabelę Playlists
zawierającą niektóre metadane (nazwa, twórca itp.). Mam też tabelę o nazwie Songs
, zawierającą playlist_id
, a także informacje dotyczące utworu (imię, wykonawca, czas trwania itp.).
Domyślnie nowy utwór dodawany do listy odtwarzania jest dołączany na końcu. Przy zamawianiu według Song-ID (rosnąco) kolejność będzie kolejnością dodawania. Ale co, jeśli użytkownik powinien móc ponownie zamówić utwory na liście odtwarzania?
Wymyśliłem kilka pomysłów, każdy z ich zaletami i wadami:
- Nazwana kolumna
order
, która jest liczbą całkowitą . Po przeniesieniu utworu kolejność wszystkich utworów między jego starą a nową pozycją jest zmieniana, aby odzwierciedlić zmianę. Wadą tego jest to, że za każdym razem, gdy piosenka jest przenoszona, należy wykonać wiele zapytań, a algorytm przenoszenia nie jest tak trywialny jak w przypadku innych opcji. - Wywołana kolumna
order
, która jest liczbą dziesiętną (NUMERIC
). Po przeniesieniu utworu zostaje mu przypisana wartość zmiennoprzecinkowa między dwiema sąsiednimi liczbami. Wada: pola dziesiętne zajmują więcej miejsca i może zabraknąć precyzji, chyba że dołoży się starań, aby rozdzielić zakres po każdych kilku zmianach. - Innym sposobem byłoby
previous
utworzenienext
pola i odniesienia do innych utworów. (lub mają teraz wartość NULL w przypadku pierwszego, lub ostatniego utworu na liście odtwarzania; Zasadniczo tworzysz listę połączoną ). Wada: zapytania typu „znajdź X utwór na liście” nie są już czasem stałym, lecz czasem liniowym.
Która z tych procedur jest najczęściej stosowana w praktyce? Która z tych procedur jest najszybsza w średnich i dużych bazach danych? Czy istnieją inne sposoby na zarchiwizowanie tego?
EDYCJA: Dla uproszczenia, w tym przykładzie utwór należy tylko do jednej listy odtwarzania (relacja wiele do jednego). Oczywiście można również użyć tabeli połączeń, więc lista utworów jest relacją wiele do wielu (i stosuje jedną z powyższych strategii na tym stole).
update songorder set order = order - 1 where order >= 12 & order <= 42; update songorder set order = 42 where id = 123;
- to dwie aktualizacje - nie trzydzieści. Trzy, jeśli chcesz nałożyć unikalne ograniczenie na zamówienie.Queries like 'find the Xth Song in the list' are no longer constant-time
dotyczy to również opcji 2Odpowiedzi:
Bazy danych są zoptymalizowane pod kątem niektórych rzeczy. Jednym z nich jest szybka aktualizacja wielu wierszy. Staje się to szczególnie prawdziwe, gdy baza danych wykonuje swoją pracę.
Rozważać:
I chcesz przejść
Beat It
do końca, będziesz mieć dwa zapytania:I to wszystko. To skaluje się bardzo dobrze przy bardzo dużych liczbach. Spróbuj umieścić kilka tysięcy utworów na hipotetycznej liście odtwarzania w bazie danych i sprawdź, ile czasu zajmuje przeniesienie utworu z jednego miejsca do drugiego. Ponieważ mają one bardzo znormalizowane formy:
Masz dwa przygotowane oświadczenia, które możesz bardzo efektywnie wykorzystać.
Daje to pewne znaczące zalety - kolejność tabeli jest czymś, o czym możesz racjonalnie myśleć. Trzecia piosenka ma
order
zawsze 3. Jedynym sposobem na zagwarantowanie tego jest użycie kolejnych liczb całkowitych jako kolejności. Użycie pseudo-połączonych list lub liczb dziesiętnych lub liczb całkowitych z przerwami nie pozwoli Ci zagwarantować tej właściwości; w takich przypadkach jedynym sposobem na zdobycie n-tej piosenki jest posortowanie całej tabeli i uzyskanie n-tej płyty.I tak naprawdę jest to o wiele łatwiejsze niż myślisz. Łatwo jest ustalić, co chcesz zrobić, wygenerować dwie instrukcje aktualizacji, a inni ludzie mogą przejrzeć te dwie instrukcje aktualizacji i zorientować się, co się dzieje.
źródło
order
ponieważorder by
jest to słowo kluczowe?order
wartość dodając nowy utwór do listy odtwarzania. Powiedzmy, że to dziewiąta piosenka. Czy jest lepszy sposób na wstawienie 9order
niż zrobienie tegoCOUNT
przed dodaniem płyty?Po pierwsze, z opisu tego, co zrobiłeś, nie wynika jasno, ale potrzebujesz
PlaylistSongs
tabeli zawierającejPlaylistId
aiSongId
opisującej, które utwory należą do poszczególnych list odtwarzania.To w tej tabeli musisz dodać informacje o zamówieniu.
Moim ulubionym mechanizmem są liczby rzeczywiste. Ostatnio go wdrożyłem i działało to jak urok. Gdy chcesz przenieść utwór do określonej pozycji, obliczasz jego nową
Ordering
wartość jako średniąOrdering
wartości z poprzedniego utworu i następnego utworu. Jeśli użyjesz 64-bitowej liczby rzeczywistej, zabraknie ci precyzji w tym samym czasie, w którym piekło zamarznie, ale jeśli naprawdę piszesz swoje oprogramowanie dla potomnych, rozważ ponowne przypisanie ładnych zaokrąglonych liczb całkowitychOrdering
do wszystkich utworów w każdym lista odtwarzania co jakiś czas.Jako dodatkowy bonus, oto kod, który napisałem, który to implementuje. Oczywiście nie możesz go używać w obecnym stanie, a teraz byłoby dla mnie zbyt dużo pracy, aby go odkażać dla ciebie, więc zamieszczam go tylko po to, aby czerpać z niego pomysły.
Klasą jest
ParameterTemplate
(cokolwiek, nie pytaj!) Metoda pobiera listę szablonów parametrów, do których ten szablon należy od swojego rodzicaActivityTemplate
. (Cokolwiek, nie pytaj!) Kod zawiera pewną ochronę przed brakiem precyzji. Dzielnik służy do testowania: test jednostkowy wykorzystuje duży dzielnik, aby szybko zabrakło precyzji, a tym samym wywołać precyzyjny kod zabezpieczający. Druga metoda jest publiczna i „wyłącznie do użytku wewnętrznego; nie wywołuje”, aby kod testowy mógł ją wywołać. (Nie może to być pakiet prywatny), ponieważ mój kod testowy nie znajduje się w tym samym pakiecie co kod, który testuje.) Pole kontrolujące kolejność jest wywoływaneOrdering
, dostępne za pośrednictwemgetOrdering()
isetOrdering()
. Nie widzisz żadnego SQL, ponieważ używam mapowania obiektowo-relacyjnego przez Hibernację.źródło
To, co zadziałało, dla małej listy rzędu 100 przedmiotów, to podejście hybrydowe:
W rezultacie otrzymujesz kolejność całkowitą bez przerw, zapisaną w kolumnie dziesiętnej. Wydaje mi się, że jest dość czysty. Ale może nie skalować się bardzo dobrze, gdy masz setki tysięcy wierszy, które musisz zaktualizować naraz. Ale jeśli tak, to dlaczego przede wszystkim używasz sortowania zdefiniowanego przez użytkownika? (Uwaga: jeśli masz dużą tabelę z milionami użytkowników, ale każdy użytkownik ma tylko kilkaset pozycji do posortowania, możesz dobrze zastosować powyższe podejście, ponieważ i tak użyjesz klauzuli where, aby ograniczyć zmiany tylko do jednego użytkownika )
źródło