Czy można udowodnić, że działanie karty graficznej w wysokich temperaturach jest niekorzystne dla karty?

11

Jeśli ciągle używasz karty graficznej w temperaturze od 80 ° C do 90 ° C (176 ° F do 194 ° F), czy rzeczywiście jest to złe dla karty graficznej? Czy to skraca żywotność karty? Czy można to udowodnić? Czy to tylko założenia?

Rozumiem, że wyłączenie bezpieczeństwa dla układów GPU zwykle wynosi 90 ° C (194 ° F).

Daniel
źródło
„Wyłączenie bezpieczeństwa” zależy w dużej mierze od tego, gdzie mierzona jest temperatura oraz od jakiego procesu i maksymalnej temperatury został zaprojektowany obwód. Pamiętam jakiś czas temu pewna generacja procesorów Intel miała maksymalną temperaturę znamionową 110 ° C, co zaniepokoiło niektórych entuzjastów sprzętu, ponieważ uważali, że układy same się zniszczą. Spoiler: Nie zrobili tego.
Joren Vaes,
1
Myślę, że to pytanie jest silnie powiązane z innym pytaniem ic-product-lifetime-as-function-of-junction-temperature . Najważniejsze z tego pytania jest to, że każde 15 ° C powyżej temperatury pokojowej zmniejsza o połowę długość życia układu scalonego. Tak więc uruchomienie karty graficznej w temperaturze 90 ° C w porównaniu do 80 ° C skróci jej żywotność o ~ 37% (więc jeśli oczekiwana długość życia wynosi 8 lat przy 80 ° C, zamiast tego ~ 5 lat przy 90 ° C)
Harry Svensson
1
Prawo Arhenniusa jest bliższe 50% niższemu wzrostowi MTBF / 10'C, ale istnieją inne czynniki, które należy wziąć pod uwagę w przypadku dielektryków, gdy zaczynają się one od znacznie niższego MTBF, np. 1000 h @ 85 h lub 105 h, więc podejrzewam, że stosują ograniczenia o wartości 105 ° C lub lepszy.
Tony Stewart Sunnyskyguy EE75

Odpowiedzi:

21

Przeanalizujmy mechanizmy awarii i zobaczmy, jak wpływają na nie ciepło. Bardzo ważne jest, aby pamiętać, że tylko dlatego, że mechanizm awarii zdarza się szybciej z temperaturą, GPU niekoniecznie zawiedzie szybciej! Jeśli podskładnik, który trwa 100 lat w temperaturze pokojowej, trwa tylko 20 lat, jeśli jest gorący, ale inny podskładnik trwa tylko 1 rok na początek (ale nie ma na niego wpływu ciepło), żywotność produktu prawie się nie zmieni temperatura.

Zignoruję problem kolarski, o którym mówił Simeon, ponieważ to nie moja wiedza.

Na poziomie płytki mogę wymyślić jeden główny element, który „pęknie” wraz z głowicą: kondensatory elektrolityczne. Kondensatory te wysychają i dobrze wiadomo, że szybciej wysychają po przyłożeniu ciepła. (Kondensatory tantalu również mają krótszą żywotność, ale nie wiem, jak zmienia się to z ciepłem).

Ale co z krzemem?

Tutaj, jak rozumiem, istnieje kilka rzeczy, które mogą spowodować awarię. Jednym z głównych tutaj jest elektromigracja. W obwodzie elektrony przechodzące przez kawałki metalu faktycznie fizycznie poruszają się wokół atomów. Może być tak źle, że spowoduje przerwy w przewodach, co może następnie doprowadzić do awarii.

To zdjęcie stanowi dobrą ilustrację (Tatiana Kozłowa, Henny W. Zandbergen; Obserwacja elektromigracji TEM in situ w nanowkładnikach Ni):

wprowadź opis zdjęcia tutaj

Proces ten rośnie wykładniczo wraz z temperaturą, a zatem chip będzie trwał krócej, jeśli temperatura będzie wyższa, a elektromigracja jest główną przyczyną awarii.

Mechanizm anher to rozpad tlenku, w którym tranzystory zostaną uszkodzone przez obwód. Zależy to również od temperatury. Jednak napięcie ma tutaj znacznie większy wpływ.

Istnieje również przesunięcie VT, albo z powodu dryfu domieszek, albo z powodu wtrysku gorącego nośnika. Wzrost dryfu domieszek wraz z temperaturą (ale raczej nie będzie problemem, szczególnie w przypadku obwodów cyfrowych, ponieważ jest to bardzo powolny proces). Nie jestem pewien zależności temperaturowej wtrysku gorącego nośnika, ale myślę, że napięcie jest tutaj znacznie ważniejszym czynnikiem.

Ale pojawia się ważne pytanie: o ile to skraca żywotność? Wiedząc o tym, czy powinieneś zadbać o to, by Twoja karta graficzna była zawsze fajna? Domyślam się, że nie, chyba że na etapie projektowania popełniono błąd. Obwody są projektowane z myślą o tych najgorszych sytuacjach i wykonane w taki sposób, aby przetrwały, jeśli zostaną przekroczone granice znamionowego okresu życia producenta. W przypadku obwodów przetaktowywania ludzi: Wzrost napięcia, którego często używają do utrzymania stabilności obwodu (ponieważ może to nieco przyspieszyć obwody), spowoduje znacznie więcej szkody niż sama temperatura. Ponadto wzrost napięcia doprowadzi do wzrostu prądu, co znacznie przyspieszy problemy z elektromigracją.

Joren Vaes
źródło
2
To fantastyczne obrazy, zawsze zastanawiałem się, jak wyglądałaby fizyczna migracja.
Cursorkeys,
9

Tak, udowodniono, że ciepło degraduje elementy elektryczne. Metale rozszerzają się podczas nagrzewania, lutowie (używane do połączeń obwodów elektrycznych) jest stopem metalu, więc rozszerza się po podgrzaniu. Stałe nagrzewanie i chłodzenie spowoduje ciągłe rozszerzanie i kurczenie się połączeń, co może prowadzić do pękania i ostatecznie uszkodzenia złącza.

                                                      Wykres wskaźnika awaryjności w funkcji temperatury

Powyższy wykres pokazuje, jak prawo Arrheniusa daje korelację między wzrostem ciepła a awarią półprzewodników. W tym artykule szczegółowo opisano wpływ ciepła na komponenty elektroniczne. Zajmuje się bardziej rzeczami na poziomie elektronowym, co jest nieco poza moim zakresem wiedzy

Simeon R.
źródło
1
Mogę wierzyć, że jazda na rowerze jest zła, ponieważ, jak mówisz, rozszerzanie się i kurczenie, ale czy jest problem z bieganiem przy dużym obciążeniu, a więc przez cały czas w wysokiej temperaturze ?
Colin,
Jestem projektantem układów scalonych, więc mam niewielką wiedzę na temat trybów awarii na poziomie płyty, ale przez cały czas naprawiałem (jako hobby) jeszcze nie spotkałem się z powodu awarii z powodu cyklu ekspansji, więc muszę zastanowić się, jak istotne jest porównywany z innymi mechanizmami.
Joren Vaes,
1
@ Colin nie ma czegoś takiego jak „wysokie obciążenie przez cały czas”; chyba że np. wydobywasz bitcoiny na swoim GPU, będą sekundy, kiedy będzie więcej obciążenia niż inne. Ponieważ chłodzenie musi być dość wydajne na procesorach graficznych, prowadzi to już do wspomnianych problemów. Zobacz: Pierścień śmierci XBox.
Marcus Müller,
@ MarcusMüller tam jest absolutnie. I nie ma znaczenia, że ​​obciążenie nie jest absolutnie stałe. Podczas jazdy na rowerze ważna jest temperatura delta. Karta, która działa przez 99% czasu przy obciążeniu 95-100% (tj. Obliczeniowym) w zaprojektowanych temperaturach, byłaby znacznie mniej podatna na hipotetyczne uszkodzenia cykliczne, niż ta sama karta oscylująca między 0% a 100% dziko 50% if (tj. gry).
Dan M.
6

Związek między wzrostem temperatury złącza półprzewodnika a zmniejszeniem jego MTBF (Mean Time Between Failure) jest dobrze zrozumiały.

Niniejsza informacja techniczna od Micron mówi o tym

W praktyce wskaźnik awaryjności wzrośnie wykładniczo, gdy temperatura złącza zbliży się i przekroczy ~ 125˚C, więc jeśli pracujesz znacznie poniżej tej temperatury, niewielkie przyrosty mogą nie być tak istotne.

joribama
źródło