Jeśli impas w zdarzeniu wymiany równoległej nie zawiera ofiar, to czy jest to problem?

10

W naszym środowisku produkcyjnym widzimy wiele takich zakleszczeń równoległych wątków wewnątrz kwerendy (SQL Server 2012 SP2 - tak ... wiem ...), jednak patrząc na XML zakleszczenia przechwycony przez zdarzenia rozszerzone, lista ofiar jest pusta.

<victim-list />

Zakleszczenie wydaje się być między 4 wątkami, dwoma z WaitType="e_waitPipeNewRow"i dwoma z WaitType="e_waitPipeGetRow".

 <resource-list>
  <exchangeEvent id="Pipe13904cb620" WaitType="e_waitPipeNewRow" nodeId="19">
   <owner-list>
    <owner id="process4649868" />
   </owner-list>
   <waiter-list>
    <waiter id="process40eb498" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe30670d480" WaitType="e_waitPipeNewRow" nodeId="21">
   <owner-list>
    <owner id="process368ecf8" />
   </owner-list>
   <waiter-list>
    <waiter id="process46a0cf8" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe13904cb4e0" WaitType="e_waitPipeGetRow" nodeId="19">
   <owner-list>
    <owner id="process40eb498" />
   </owner-list>
   <waiter-list>
    <waiter id="process368ecf8" />
   </waiter-list>
  </exchangeEvent>
  <exchangeEvent id="Pipe4a106e060" WaitType="e_waitPipeGetRow" nodeId="21">
   <owner-list>
    <owner id="process46a0cf8" />
   </owner-list>
   <waiter-list>
    <waiter id="process4649868" />
   </waiter-list>
  </exchangeEvent>
 </resource-list>

Więc:

  1. Lista ofiar jest pusta
  2. Aplikacja uruchamiająca zapytanie nie zawiera błędów i wykonuje zapytanie
  3. O ile widzimy, nie ma oczywistego problemu, poza tym, że wykres jest przechwytywany

Czy zatem jest to coś, o co należy się martwić oprócz hałasu?

Edycja: Dzięki odpowiedzi Paula widzę, gdzie najprawdopodobniej występuje problem i wydaje się, że rozwiązuje się wraz z wyciekiem tempdb. wprowadź opis zdjęcia tutaj

Mark Sinkinson
źródło

Odpowiedzi:

11

Nie zdziwiłbym się, gdyby tak wyglądał wykres zakleszczenia, gdy zakleszczenie równoległe wewnątrz zapytania jest rozwiązywane przez wyciek wymiany (więc nie ma ofiary, z wyjątkiem wydajności).

Możesz potwierdzić tę teorię, przechwytując wycieki z wymiany i dopasowując je (lub nie) do impasu.

Zapisywanie buforów wymiany w tempdb w celu rozwiązania impasu nie jest idealne. Spójrz, aby wyeliminować sekwencje operacji utrzymujących porządek w planie wykonania (np. Giełdy utrzymujące porządek zasilające łączenie scalone równolegle). Chyba że nie powoduje to zauważalnego problemu z wydajnością, a Ty masz inne powody do zmartwień.

Czy z powodu braku zainteresowania problem ten może spotęgować duża fragmentacja / nieaktualne statystyki?

Fragmentacja, nie Nieaktualne statystyki: nie w żadnym konkretnym sensie, o którym myślę, nie. Oczywiście niereprezentatywne statystyki rzadko są dobrą rzeczą.

Podstawową kwestią jest to, że paralelizm działa najlepiej, gdy istnieje możliwie najmniej zależności między wątkami; zachowane porządkowanie wprowadza raczej nieprzyjemne zależności. Rzeczy można łatwo zbrukać, a jedynym sposobem na usunięcie logjamu jest rozlanie szeregu rzędów podczas wymiany na tempdb .

Paul White 9
źródło
-1

Aby odróżnić te niekrytyczne zakleszczenia „samowystarczalne przez zalanie” od ważniejszych zakleszczeń, w strukturze Xdl można zastosować pewną semantykę wyszukiwania.

Przykładowy wynik

Następujący SP nie będzie działać po wyjęciu z pudełka, ponieważ zależy od ufn_ExtractSubstringsByPattern (), jednak tę metodę można zastąpić czymś, co zwraca odrębną liczbę bezpośrednio.

ALTER view [Common].[DeadLockRecentHistoryView]
as
/*---------------------------------------------------------------------------------------------------------------------
    Purpose:  List history of recent deadlock events

    Warning:  The XML processing may hit a recursion limit (100), suggest using "option (maxrecursion 10000)".

    Xdl File:
        The SSMS deadlock file format .XDL format (xml) has changed with later versions of SQL Server.  This version tested with 2012.

    Ring Buffer issues:
        https://connect.microsoft.com/SQLServer/feedback/details/754115/xevents-system-health-does-not-catch-all-deadlocks
        https://www.sqlskills.com/blogs/jonathan/why-i-hate-the-ring_buffer-target-in-extended-events/

    Links:
        http://www.sqlskills.com/blogs/jonathan/multi-victim-deadlocks/
        https://www.sqlskills.com/blogs/jonathan/graphically-viewing-extended-events-deadlock-graphs/
        http://www.mssqltips.com/sqlservertip/1234/capturing-sql-server-deadlock-information-in-xml-format/
        http://blogs.msdn.com/b/sqldatabasetalk/archive/2013/05/01/tracking-down-deadlocks-in-sql-database.aspx
        http://dba.stackexchange.com/questions/10644/deadlock-error-isnt-returning-the-deadlock-sql/10646#10646        

    Modified    By           Description
    ----------  -----------  ------------------------------------------------------------------------------------------
    2014.10.29  crokusek     From Internet, http://stackoverflow.com/questions/19817951
    2015.05.05  crokusek     Improve so that the output is consumable by SSMS 2012 as "Open .xdl file"                             
    2015.05.22  crokusek     Remove special character for the cast to Xml (like '&')
    2017.08.03  crokusek     Abandon ring-buffer approach and use event log files.  Filter out internal deadlocks.
    2018.07.16  crokusek     Added field(s) like ProbablyHandledBySpill to help identify non-critical deadlocks.
  ---------------------------------------------------------------------------------------------------------------------*/
with XmlDeadlockReports as
(
  select convert(xml, event_data) as EventData         
    from sys.fn_xe_file_target_read_file(N'system_health*.xel', NULL, NULL, NULL)      
   where substring(event_data, 1, 50) like '%"xml_deadlock_report"%'       
)
select top 10000
       EventData.value('(event/@timestamp)[1]', 'datetime2(7)') as CreatedUtc,
       --(select TimePst from Common.ufn_ConvertUtcToPst(EventData.value('(event/@timestamp)[1]', 'datetime2(7)'))) as CreatedPst,
       DistinctSpidCount,       
       HasExchangeEvent,
       IsVictimless,                  
       --
       -- If the deadlock contains Exchange Events and lists no victims, it probably occurred
       -- during execution of a single query that contained parallellism but got stuck due to 
       -- ordering issues.   /dba/197779
       -- 
       -- These will not raise an exception to the caller and will complete by spilling to tempdb
       -- however they may run much slower than they would without the spill(s).
       --
       convert(bit, iif(DistinctSpidCount = 1 and HasExchangeEvent = 1 and IsVictimless = 1, 1, 0)) as ProbablyHandledBySpill,
       len(et.XdlFileText) as LenXdlFile,
       eddl.XdlFile as XdlFile
  from XmlDeadlockReports
 cross apply 
     ( 
       select eventData.query('event/data/value/deadlock') as XdlFile 
     ) eddl
 cross apply 
     ( 
        select convert(nvarchar(max), eddl.XdlFile) as XdlFileText 
     ) as et
 cross apply 
     (
       select count(distinct Match) as DistinctSpidCount
         from common.ufn_ExtractSubstringsByPattern(et.XdlFileText, 'spid="%%"')
     ) spids
 cross apply
     (
       select convert(bit, iif(charindex('<exchangeEvent', et.XdlFileText) > 0, 1, 0)) as HasExchangeEvent,
              --
              convert(bit, iif(     charindex('<victim-list>', et.XdlFileText) = 0
                                and charindex('<victim-list/>', et.XdlFileText) > 0, 1, 0)) as IsVictimless
     ) as flags        
 order by CreatedUtc desc
GO
Crokusek
źródło