Dlaczego dokładnie układy zaczynają działać nieprawidłowo po przegrzaniu?

26

Gdy układ się przegrzeje, może zacząć działać nieprawidłowo - na przykład wiele programów może przestać działać, gdy niektóre lub wszystkie elementy komputera ulegną przegrzaniu.

Co dokładnie dzieje się, co powoduje awarię żetonów, gdy się przegrzewają?

sharptooth
źródło

Odpowiedzi:

26

Aby rozwinąć inne odpowiedzi.

  1. Wyższe prądy upływowe: może to prowadzić do większej liczby problemów z ogrzewaniem i może łatwo doprowadzić do niekontrolowanego wzrostu temperatury.
  2. Stosunek sygnału do szumu zmniejsza się wraz ze wzrostem szumu termicznego : może to skutkować wyższym bitowym współczynnikiem błędów, co spowoduje, że program zostanie źle odczytany, a polecenia źle interpretowane. Może to spowodować „losowe” działanie.
  3. Domieszki stają się bardziej mobilne z ciepłem. Gdy masz w pełni przegrzany układ, tranzystor może przestać być tranzystorem. To jest nieodwracalne.
  4. Nierówne ogrzewanie może spowodować rozpad krystalicznej struktury Si. Normalna osoba może doświadczyć, narażając szkło na szok temperaturowy. Rozbije się, trochę ekstremalnie, ale ilustruje sens. To jest nieodwracalne.
  5. Pamięci ROM, które zależą od naładowanej izolowanej płytki, będą mogły utracić pamięć wraz ze wzrostem temperatury. Energia cieplna, jeśli jest wystarczająco wysoka, może pozwolić elektronice na ucieczkę z naładowanego przewodu. Może to uszkodzić pamięć programu. Zdarza mi się to regularnie podczas lutowania układów scalonych, które są już zaprogramowane, gdy ktoś przegrzewa układ.
  6. Utrata kontroli tranzystora: Przy wystarczającej energii cieplnej elektrony mogą przeskoczyć pasmo wzbronione. Półprzewodnik jest materiałem, który ma małą przerwę pasmową, dzięki czemu można go łatwo łączyć z domieszkami, ale wystarczająco dużą, aby wymagana temperatura robocza nie zamieniła go w przewodnik, w którym szczelina jest mniejsza niż energia cieplna materiału. Jest to uproszczenie i jest podstawą innego postu, ale chciałem go dodać i wyrazić własnymi słowami.

Jest więcej powodów, ale to kilka ważnych.

Kortuk
źródło
Wydaje się prawdopodobne, że awarie czasowe byłyby jednym z „dodatkowych powodów” (rezystancja drutu zwykle rośnie wraz z temperaturą, więc ścieżki czasowe ograniczone rezystancją pojemności mogą naruszać ich gwarantowany najgorszy czas). Oczywiście, DRAM również szybciej wycieka ładunek (jak pamięć flash) w wyższych temperaturach; bez kompensacji danych częstotliwości odświeżania można utracić.
Paul A. Clayton,
13

Głównym problemem związanym z pracą układu scalonego w wysokich temperaturach jest znacznie zwiększony prąd upływowy poszczególnych tranzystorów. Prąd upływowy może wzrosnąć do tego stopnia, że ​​wpłynie to na poziomy napięcia przełączania urządzeń, przez co sygnały nie będą mogły prawidłowo rozchodzić się w układzie i przestanie on działać. Zwykle wracają do zdrowia po pozwoleniu na ochłodzenie, ale nie zawsze tak jest.

Procesy produkcyjne do pracy w wysokich temperaturach (do 300 ° C) wykorzystują technologię CMOS krzem na izolatorze ze względu na niski wyciek w bardzo szerokim zakresie temperatur.

Leon Heller
źródło
9

Tylko jeden dodatek do doskonałych odpowiedzi: technicznie rzecz biorąc, to nie domieszki stają się bardziej mobilne, to wzrost wewnętrznej koncentracji nośnika. Jeśli cokolwiek, domieszki / nośniki staną się mniej ruchome, gdy sieć kryształów krzemu zacznie „wibrować” z powodu wzrostu energii cieplnej utrudniającej przepływ elektronów i otworów przez urządzenie - optyczne rozpraszanie fononów, jak sądzę, nazywają to fetyka, ale mogę mylić się.

Gdy wewnętrzne stężenie nośnika wzrośnie powyżej poziomu dopingu, tracisz kontrolę elektryczną nad urządzeniem. Nośniki wewnętrzne to te, które są tam, zanim dopychamy krzem, idea półprzewodników polega na tym, że dodajemy własne nośniki w celu wygenerowania połączeń pn i innych interesujących rzeczy, które robią tranzystory. Krzem osiąga temperaturę około 150 stopni Celsjusza, więc pochłaniające ciepło RF i szybkie procesory są bardzo ważne, ponieważ 150 stopni Celsjusza nie jest zbyt trudne do osiągnięcia w praktyce. Istnieje bezpośredni związek między wewnętrznym stężeniem nośnika a prądem upływowym urządzenia.

Jak pokazali inni faceci, jest to tylko jeden z powodów, dla których chipy zawodzą - może nawet dojść do czegoś tak prostego, jak zbytnie nagrzewanie się drutu i wyskakiwanie z płytki, jest ogromna lista rzeczy.

SimonBarker
źródło
Kiedy mówię, że domieszki stają się bardziej ruchliwe, mam na myśli atomy fizyczne, a nie nośniki. Złącze PN może dryfować i przestać być diodą z czasem i ciepłem. Po drugie, gdy uzyskasz wystarczająco wysoką temperaturę, twoja energia cieplna, która tworzy zarówno fonony o wysokiej energii, które oddziałują z elektronami, jak i znacznie wyższe poziomy IR wewnątrz struktury, może dać elektronom wystarczająco wysoką energię, aby przeskoczyć przerwę między warstwami przewodzenia i wartościowości . Si osiąga szczyt, ponieważ jego pasmo wzbronione jest takie, że 150 ° C da elektronom możliwość skakania.
Kortuk
Tak, myślę, że mówimy to samo z innego punktu początkowego.
SimonBarker
1
Sposób, w jaki to wyjaśniasz, brzmi dokładnie tak, jak bym to zrobił po wzięciu fizyki urządzenia, po przyjęciu niektórych zastosowanych urządzeń kwantowych i półprzewodnikowych mówię to nieco inaczej, ale obaj wiemy, jak bardzo uproszczone są te wyjaśnienia. Dodałem trochę o tym wpływie do mojej odpowiedzi, ponieważ uważam, że jest to bardzo ważne, dałem ci swoją pierwszą +1, na którą zasłużyłeś. Jest to ważny wpływ, ponieważ bardzo szybko prowadzi do niekontrolowanej ucieczki.
Kortuk
8

Chociaż rosną prądy upływowe, spodziewałbym się, że większym problemem dla wielu urządzeń opartych na MOS jest to, że ilość prądu przepływającego przez tranzystor MOS w stanie „włączenia” będzie maleć, gdy urządzenie się nagrzeje. Aby urządzenie działało poprawnie, tranzystor, który przełącza węzeł, musi być w stanie naładować lub rozładować dowolną pojemność utajoną w tej części obwodu, zanim cokolwiek innego będzie zależeć od przełączenia tego węzła. Zmniejszenie zdolności tranzystorów do przepuszczania prądu zmniejszy szybkość, z jaką mogą ładować lub rozładowywać węzły. Jeśli tranzystor nie jest w stanie wystarczająco naładować lub rozładować węzła, zanim inna część obwodu będzie polegać na przełączeniu tego węzła, obwód będzie działać nieprawidłowo.

Należy zauważyć, że w przypadku urządzeń NMOS wystąpił kompromis projektowy przy doborze pasywnych tranzystorów podciągających; im większe pasywne podciąganie, tym szybciej węzeł może przełączać się z niskiego na wysoki, ale tym więcej energii marnuje się, gdy węzeł jest niski. Wiele takich urządzeń było zatem obsługiwanych nieco w pobliżu granicy prawidłowego działania, a awarie na bazie ciepła były (a w przypadku zabytkowej elektroniki - dość częste). W przypadku powszechnej elektroniki CMOS takie problemy są na ogół mniej poważne; W praktyce nie mam pojęcia, w jakim stopniu odgrywają one rolę w procesorach z wieloma GHZ.

supercat
źródło
2
To bardzo ważny efekt, miałem właśnie poprosić Kortuka o dodanie go do swojej odpowiedzi. Jednym z czynników stojących za maksymalną specyfikacją Tj dla procesora jest to, że powyżej Tj procesor może nie działać z prędkością znamionową. Dlatego też lepsze chłodzenie pomaga w przetaktowywaniu.
Andy
Pierwszy akapit mówi o tym, dlaczego komputer przestaje działać, gdy robi się gorąco - spowalnia zbyt mocno, aby dotrzymać kroku częstotliwości zegara.
W5VO
W rzeczywistości istnieje inny czynnik, który mógł odgrywać pewną rolę w urządzeniach NMOS, choć nie spodziewałbym się tego w większości typowych konstrukcji: wiele urządzeń NMOS miało minimalne częstotliwości taktowania, narzucone przez wymóg używania lub odświeżania danych w dynamicznych węzłach pamięci zanim zostanie odprowadzony przez wyciek. Gdyby prądy upływowe wzrastały wraz z temperaturą, również wzrastałaby minimalna prędkość zegara. Podejrzewam, że większość urządzeń działała wystarczająco powyżej minimalnej częstotliwości taktowania, że ​​zwiększenie minimalnej prędkości nie byłoby problemem, ale nie jestem pewien.
supercat
@Andy, @ W5VO, pisałem swoją odpowiedź zeszłej nocy i zapomniałem o tym w połowie drogi. Nocna zmiana powoduje uszkodzenie mózgu.
Kortuk
2

Aby uzupełnić istniejące odpowiedzi, dzisiejsze obwody są wrażliwe na następujące dwa efekty starzenia (nie tylko te, ale są one główne w procesach <150 nm):

Ponieważ temperatura zwiększa ruchliwość nośników, zwiększa efekty HCI i NBTI, ale temperatura nie jest główną przyczyną NBTI i HCI:

  • HCI jest spowodowane wysoką częstotliwością
  • NBTI przez wysokie napięcie

Te dwa efekty starzenia krzemu powodują zarówno odwracalne, jak i nieodwracalne uszkodzenia tranzystorów (poprzez wpływ / pogorszenie podłoży izolatora), które zwiększają próg napięcia tranzystora (Vt). W rezultacie część będzie wymagała wyższego napięcia, aby utrzymać ten sam poziom wydajności, co oznacza wzrost temperatury roboczej, a jak wspomniano w innych słupkach, nastąpi wzrost przecieku bramki tranzystora.

Podsumowując, temperatura tak naprawdę nie przyspieszy starzenia się części, to wyższa częstotliwość i napięcie (tj. Podkręcanie) spowodują starzenie się części. Ale starzenie się tranzystorów będzie wymagało wyższego napięcia roboczego, które zwiększy ciepło części.

Corolary: konsekwencją podkręcania jest wzrost temperatury i wymaganego napięcia.

Eric
źródło
1

Ogólnym powodem nieodwracalnego uszkodzenia układów scalonych jest to, że aluminiowy metal w nich zastosowany do stworzenia połączeń między różnymi elementami topi się i otwiera lub zwiera urządzenia.

Tak, prądy upływowe będą rosły, ale generalnie problemem nie jest sam prąd upływowy, ale powodowane przez nie ciepło, aw konsekwencji uszkodzenie metalu wewnątrz układu scalonego.

Obwody zasilające (np. Zasilacze, sterowniki wysokoprądowe itp.) Mogą ulec uszkodzeniu, ponieważ przy wysokich napięciach, gdy sterowniki tranzystorów szybko się wyłączają, wytwarzane są prądy wewnętrzne, które powodują zatrzaśnięcie urządzenia lub nierównomierny rozkład mocy w nim, co powoduje lokalne nagrzewanie i późniejsza awaria metalu.

Duża liczba (1000) powtarzanych cykli termicznych może powodować awarie z powodu niedopasowania między mechanicznym rozszerzaniem układu scalonego i opakowania, ostatecznie powodując oderwanie drutów wiążących lub ograniczenie materiału opakowania z tworzywa sztucznego, a następnie awarię mechaniczną.

Oczywiście duża liczba specyfikacji parametrycznych IC jest określona tylko w danym zakresie temperatur i mogą one nie znajdować się poza specyfikacją. W zależności od projektu może to spowodować awarię lub niedopuszczalne przesunięcie parametryczne (gdy IC znajduje się poza zakresem temperatur) - może to wystąpić w przypadku ekstremalnie wysokich lub niskich temperatur.

jp314
źródło
Aluminium topi się w 660 ° C (1220 ° F). Układy scalone giną na długo przed osiągnięciem tej temperatury.
Dmitrij Grigoryjew
Zasadniczo nie. W temperaturach poniżej tego z pewnością można uzyskać niepożądane zachowanie elektryczne; nadmierne nagrzewanie i niekontrolowany wzrost temperatury, ale tak naprawdę nie powoduje to trwałej awarii, dopóki pewna część obwodu nie osiągnie temperatury, w której Al (lub inny metal) dyfunduje do krzemu. Ten (punkt eutektyczny) wynosi około 500–600 C. Większość innych awarii można naprawić. Dodatkowe awarie mogą być powodowane przez awarie elektryczne, które umożliwiają przykładanie nadmiernego napięcia do bram tranzystora lub cykli termicznych (które powodują awarie mechaniczne).
jp314
Nadal mam wątpliwości. Na przykład układy scalone zwykle określają maksymalną temperaturę lutowania około 300 ° C, więc wydaje się, że przekroczenie tego limitu wystarczy, aby spowodować trwałe uszkodzenie.
Dmitrij Grigoriew