Indeks nie jest używany z `= any ()`, ale jest używany z `in`

15

Tabela tma dwa indeksy:

create table t (a int, b int);
create type int_pair as (a int, b int);
create index t_row_idx on t (((a,b)::int_pair));
create index t_a_b_idx on t (a,b);

insert into t (a,b)
select i, i
from generate_series(1, 100000) g(i)
;

Z anyoperatorem nie jest używany indeks :

explain analyze
select *
from t
where (a,b) = any(array[(1,1),(1,2)])
;
                                            QUERY PLAN                                             
---------------------------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..1693.00 rows=1000 width=8) (actual time=0.042..126.789 rows=1 loops=1)
   Filter: (ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   Rows Removed by Filter: 99999
 Planning time: 0.122 ms
 Execution time: 126.836 ms

Ale jeden z nich jest używany z inoperatorem:

explain analyze
select *
from t
where (a,b) in ((1,1),(1,2))
;
                                                    QUERY PLAN                                                    
------------------------------------------------------------------------------------------------------------------
 Index Only Scan using t_a_b_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.028..0.029 rows=1 loops=1)
   Index Cond: (a = 1)
   Filter: ((b = 1) OR (b = 2))
   Heap Fetches: 1
 Planning time: 0.161 ms
 Execution time: 0.066 ms

Używa indeksu rekordu, jeśli rekord jest rzutowany na poprawny typ:

explain analyze
select *
from t
where (a,b)::int_pair = any(array[row(1,1),row(1,2)])
;
                                                  QUERY PLAN                                                  
--------------------------------------------------------------------------------------------------------------
 Index Scan using t_row_idx on t  (cost=0.42..12.87 rows=2 width=8) (actual time=0.106..0.126 rows=1 loops=1)
   Index Cond: (ROW(a, b)::int_pair = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 0.208 ms
 Execution time: 0.203 ms

Dlaczego planista nie używa indeksu nie rekordu dla anyoperatora, ponieważ używa go dla inoperatora?

Clodoaldo
źródło
To interesujące pytanie pojawiło się w powiązanej dyskusji na temat SO: stackoverflow.com/a/34601242/939860
Erwin Brandstetter

Odpowiedzi:

13

Wewnętrznie są dwa oddzielne formy z IN, jak również dla ANYkonstruktu.

Jeden z nich, biorąc zestaw , jest równoważny drugiemu i expr IN (<set>)również prowadzi do tego samego planu zapytań, expr = ANY(<set>)który może wykorzystywać zwykły indeks. Detale:

W związku z tym następujące dwa zapytania są równoważne i oba mogą korzystać ze zwykłego indeksu t_a_b_idx(co może być również rozwiązaniem, jeśli próbujesz uzyskać zapytanie w celu użycia tego indeksu):

EXPLAIN ANALYZE
SELECT *
FROM t
WHERE (a,b) = ANY(VALUES (1,1),(1,2));

Lub:

...
WHERE (a,b) IN (VALUES (1,1),(1,2));

Identyczne dla obu:

                                                        QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.33..16.71 rows=1 width=8) (actual time=0.101..0.101 rows=0 loops=1)
   ->  Unique  (cost=0.04..0.05 rows=2 width=8) (actual time=0.068..0.070 rows=2 loops=1)
         ->  Sort  (cost=0.04..0.04 rows=2 width=8) (actual time=0.067..0.068 rows=2 loops=1)
               Sort Key: "*VALUES*".column1, "*VALUES*".column2
               Sort Method: quicksort  Memory: 25kB
               ->  Values Scan on "*VALUES*"  (cost=0.00..0.03 rows=2 width=8) (actual time=0.005..0.005 rows=2 loops=1)
   ->  Index Only Scan using t_plain_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.009..0.009 rows=0 loops=2)
         Index Cond: ((a = "*VALUES*".column1) AND (b = "*VALUES*".column2))
         Heap Fetches: 0
 Planning time: 4.080 ms
 Execution time: 0.202 ms

Jednak nie można tego łatwo przekazać do funkcji, ponieważ w Postgres nie ma „zmiennych tabeli”. Co prowadzi do problemu, który rozpoczął ten temat:

Istnieją różne obejścia tego problemu. Jednym z nich jest alternatywna odpowiedź, którą tam dodałem. Jacyś inni:


Druga forma każdego z nich jest inna: ANYprzyjmuje rzeczywistą tablicę , a INprzyjmuje listę wartości oddzieloną przecinkami .

Ma to różne konsekwencje dla wpisywania danych wejściowych. Jak widzimy w EXPLAINwynikach pytania, ten formularz:

WHERE (a,b) = ANY(ARRAY[(1,1),(1,2)]);

jest postrzegany jako skrót dla:

ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)])

Rzeczywiste wartości ROW są porównywane. Postgres nie jest obecnie wystarczająco inteligentny, aby sprawdzić, czy ma zastosowanie indeks typu złożonego t_row_idx. Nie zdaje sobie również sprawy, że prosty indeks t_a_b_idxpowinien również mieć zastosowanie.

Wyraźna obsada pomaga przezwyciężyć ten brak inteligencji:

WHERE (a,b)::int_pair = ANY(ARRAY[(1,1),(1,2)]::int_pair[]);

Rzutowanie właściwego operandu ( ::int_pair[]) jest opcjonalne (chociaż jest preferowane ze względu na wydajność i aby uniknąć niejednoznaczności). Gdy lewy operand ma dobrze znany typ, prawy operand jest wymuszany z „anonimowego rekordu” na pasujący typ. Dopiero wtedy operator jest definiowany jednoznacznie. A Postgres wybiera odpowiednie indeksy na podstawie operatora i lewego operandu. W przypadku wielu operatorów, które definiują a COMMUTATOR, narzędzie do planowania zapytań może odwrócić operandy, aby przesunąć indeksowane wyrażenie w lewo. Ale nie jest to możliwe w przypadku ANYkonstrukcji.

Związane z:

.. wartości są traktowane jako elementy, a Postgres jest w stanie porównać poszczególne wartości całkowite, co możemy zobaczyć w danych EXPLAINwyjściowych jeszcze raz:

Filter: ((b = 1) OR (b = 2))

Dlatego Postgres stwierdza, że t_a_b_idxmożna użyć prostego indeksu .


W związku z tym istnieje inne rozwiązanie dla konkretnego przypadku w przykładzie : ponieważ niestandardowy typ złożonego int_pairw przykładzie okazuje się być równoważny typowi wiersza tsamej tabeli , możemy uprościć:

CREATE INDEX t_row_idx2 ON t ((t));

Następnie to zapytanie użyłoby indeksu bez wyraźniejszego rzutowania:

EXPLAIN ANALYZE
SELECT *
FROM   t
WHERE  t = ANY(ARRAY[(1,1),(1,2)]);
                                                      QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t  (cost=40.59..496.08 rows=1000 width=8) (actual time=0.19
1..0.191 rows=0 loops=1)
   Recheck Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   ->  Bitmap Index Scan on t_row_idx2  (cost=0.00..40.34 rows=1000 width=0) (actual time=0.188..0.188 rows=0 loops=1)
         Index Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 2.575 ms
 Execution time: 0.267 ms

Ale typowe przypadki użycia nie będą w stanie wykorzystać domyślnie istniejącego typu wiersza tabeli.

Erwin Brandstetter
źródło
1
Drobny dodatek: chociaż krótka IN(...)lista może zostać przetłumaczona (przez planistę) na ... OR ...wyrażenie w powyższym przypadku, zwykle jest to po prostu przetłumaczone na ANY('{...}'), to znaczy za pomocą tablicy. W większości przypadków INlista wartości i ANYtablica są tym samym.
dezso
1
@dezso: W przypadku najprostszych przypadków tak. Pytanie pokazuje przypadek, w którym IN(...) nie można go przetłumaczyć = ANY('{...}').
Erwin Brandstetter,