Czy w SQL Server mogę zagwarantować zamówienie bez wyraźnej klauzuli ORDER BY, gdy wyszukiwanie tabeli jest wymuszane tylko w przypadku indeksu klastrowanego?

24

Aktualizacja 18.12.2014

Przy przytłaczającej odpowiedzi na główne pytanie brzmi „Nie”, bardziej interesujące odpowiedzi skupiły się na części 2, w jaki sposób rozwiązać zagadkę wydajności w sposób wyraźny ORDER BY. Chociaż zaznaczyłem już odpowiedź, nie zdziwiłbym się, gdyby istniało jeszcze lepsze rozwiązanie.

Oryginalny

To pytanie powstało, ponieważ jedyne niezwykle szybkie rozwiązanie konkretnego problemu działa tylko bez ORDER BYklauzuli. Poniżej znajduje się pełny T-SQL potrzebny do wygenerowania problemu, wraz z moim proponowanym rozwiązaniem (używam SQL Server 2008 R2, jeśli to ma znaczenie).

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

Oto plany wykonania odpowiednio dla rozwiązania A i B:

Sol A

Sol B.

Rozwiązanie A zapewnia wydajność, której potrzebuję, ale nie mogłem zmusić go do działania z taką samą wydajnością przy dodawaniu dowolnej klauzuli ORDER BY (np. Patrz Rozwiązanie B). I z pewnością wydaje się, że Rozwiązanie A musiałoby dostarczać swoje wyniki w kolejności, ponieważ 1) tabela ma tylko jeden indeks, 2) wyszukiwanie jest wymuszone, co eliminuje możliwość użycia skanowania kolejności przydziału na podstawie stron IAM .

Więc moje pytania to:

  1. Czy mam rację, że zagwarantuje to zamówienie w tym przypadku bez zamówienia według klauzuli?

  2. Jeśli nie, to czy istnieje inna metoda narzucenia planu tak szybkiego jak Rozwiązanie A, najlepiej takiego, który pozwala uniknąć sortowania? Pamiętaj, że musiałby rozwiązać dokładnie ten sam problem ( StoreID = 1znaleźć 500 najlepszych klientów uporządkowanych według ich najdroższej kwoty zakupu). Musiałby także nadal korzystać z #Orderstabeli, ale inne schematy indeksowania byłyby OK.

JohnnyM
źródło
16
Zamawianie jest gwarantowane tylko w przypadku korzystania ORDER BY.
alroc
8
Czy mam rację, że zagwarantuje to zamówienie w tym przypadku bez zamówienia według klauzuli ” - nie, absolutnie nie.
a_horse_w_no_name
3
Oto artykuł, który świetnie to wyjaśnia. blogs.msdn.com/b/conor_cunningham_msft/archive/2008/08/27/...
Sean Lange
@SeanLange: Podobnie jak ty i inni, nie czuję się komfortowo z pominięciem zamówienia z tych samych powodów. Jednak: a) nie mogę znaleźć zapytania o takiej samej wydajności, jak Rozwiązanie A, które korzysta z ORDER BY, i b) nie wiem, w jaki sposób mógłby je nieprawidłowo zamówić. Czy ty? Nie twierdzę, że nie ma sposobu, po prostu go nie znam, i miałem nadzieję, że ktoś mógłby go wypowiedzieć, gdyby istniał. Nawet przykłady w tym artykule dotyczą tylko skanów, których nie ma.
JohnnyM,
AKTUALIZACJA: Zmieniłem rodzaj danych i metodę obliczania, aby uniknąć posiadania tak wielu duplikatów. Wszystkie zasady obowiązują nadal. Chociaż w tym problemie nie obchodzi mnie, kto wygra, gdy jest remis, mając tak wiele remisów, trudno było zobaczyć, co się dzieje, patrząc na dane. Teraz jest o wiele bardziej jasne, że oprócz więzi, rozwiązania A i B dają te same wyniki.
JohnnyM,

Odpowiedzi:

23
  1. Czy mam rację, że zagwarantuje to zamówienie w tym przypadku bez zamówienia według klauzuli?

Nie . Wyróżnienie przepływu, które zachowuje porządek (pozwalając ORDER BYbez sortowania) nie jest obecnie zaimplementowane w SQL Server. Można to zrobić w zasadzie, ale wtedy wiele rzeczy jest możliwych, jeśli pozwolimy na zmianę kodu źródłowego SQL Server. Jeśli potrafisz uzasadnić tę pracę programistyczną, możesz zasugerować to firmie Microsoft .

  1. Jeśli nie, to czy istnieje inna metoda narzucenia planu tak szybkiego jak Rozwiązanie A, najlepiej takiego, który pozwala uniknąć sortowania?

Tak. (Wskazówki dotyczące tabel i zapytań są wymagane tylko w przypadku używania estymatora liczności liczebności sprzed 2014 r.):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

Rzeczywisty plan wykonania

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

Rozwiązanie SQL CLR

Poniższy skrypt pokazuje użycie wartościowej tabeli SQL CLR w celu spełnienia określonych wymagań. Nie jestem ekspertem w języku C #, więc kod może ulec poprawie:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

Tabela testowa i przykładowe dane z pytania:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

Test działania:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

Plan wykonania (zwróć uwagę na potwierdzenie ORDERgwarancji):

Plan wykonania funkcji CLR

Na moim laptopie zwykle wykonuje się to w 80-100 ms. Nie jest to tak szybkie jak powyższe przepisywanie T-SQL, ale powinno wykazywać dobrą stabilność wydajności w obliczu różnych dystrybucji danych.

Kod źródłowy:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}
Paul White mówi GoFundMonica
źródło
6

Bez ORDER BYwielu rzeczy może się nie udać. Wyłączyłeś wszystkie możliwe problemy, które mogę wymyślić, ale to nie znaczy, że nie ma problemu, ani nie będzie żadnego w przyszłym wydaniu.

To powinno działać:

Wyciągnij partie 500 wierszy ze stołu w pętli i zatrzymaj się, gdy otrzymasz 500 różnych identyfikatorów klientów. Zapytanie pobierania może wyglądać następująco:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

Spowoduje to wykonanie skanowanego zakresu zasięgu na indeksie. Amount <= @lastAmountFetchedOrzecznikiem jest tam, aby ciągnąć stopniowo kolejne rekordy. Każde zapytanie dotknie tylko 500 rekordów. Oznacza to, że jest to O (1). Nie staje się droższy, im dalej przejdziesz do indeksu.

Musisz zachować zmienną, @lastAmountFetchedaby zmniejszyć do najmniejszej wartości pobranej w tej instrukcji.

W ten sposób będziesz stopniowo skanować indeks w uporządkowany sposób. Przeczytasz co najwyżej (500-1) wierszy więcej niż byłaby optymalna ilość.

Będzie to o wiele szybsze niż zawsze agregowanie około 100 000 zamówień dla określonego sklepu. Prawdopodobnie potrzeba tylko kilku iteracji po 500 wierszy.

Zasadniczo jest to ręcznie kodowany odrębny operator przepływu.

Możesz też użyć kursora, aby pobrać jak najmniej wierszy. Będzie to o wiele wolniejsze, ponieważ wykonywanie 500 zapytań jednorzędowych najczęściej jest wolniejsze niż wykonywanie partii 500 wierszy.

Alternatywnie, po prostu odpytuj wszystkie wiersze bez DISTINCTw uporządkowany sposób i spraw, aby aplikacja kliencka zakończyła zapytanie po zwróceniu wystarczającej liczby (za pomocą SqlCommand.Cancel).

usr
źródło
1
Brakuje w tym kluczowego szczegółu - jak zamierzasz upewnić się, #fetchedOrdersże nie zawiera klientów, których już widzieliśmy? Prawdopodobnie wiąże się to z indeksem szukać w tabeli temp, co nie jest zupełnie tak samo jak „płynąć odrębne” i będzie drożeć im więcej wierszy widzieliśmy (choć nadal będzie pokonać roztwór B we wszystkich, ale najgorszy przypadek konieczności skanowania wszystkich wierszy, ponieważ jest tylko jeden klient, dla którego A i B będą działać identycznie).
2
@JeroenMostert - IGNORE_DUP_KEYmoże to zrobić.
Martin Smith,
@usr: Dzięki za to. Zakodowałem go za pomocą IGNORE_DUP_KEY i uruchomiłem liczby i uzyskałem czas procesora = 31 ms, czas, który upłynął = 27 ms. Chociaż jest znacznie szybszy niż Rozwiązanie B, nie jest on nigdzie w pobliżu Rozwiązania A (procesor = 0, ms = 1), co dla moich celów musi być. Kiedy powiedziałeś „Wyłączyłeś wszystkie możliwe problemy, które mogę wymyślić”, zastanawiam się, czy wykluczyłem wszystkie problemy, o których każdy może pomyśleć. Frustrujące jest to, że mogę sobie wyobrazić, co SQL musi zrobić, aby uzyskać perfid A, po prostu nie wiem, jak to powiedzieć, używając ORDER BY.
JohnnyM,