Nvidia K20X vs GeForce Titan dla przyspieszenia GPGPU

10

Próbuję zrozumieć różnicę między tymi dwiema kartami graficznymi dla komputerów akademickich, szczególnie dla komponentu DGEMM.

Jeśli spojrzymy na surowe statystyki, oba mają ten sam układ GK110, mają porównywalne statystyki w praktycznie każdej kategorii i, moim zdaniem, mają tę samą architekturę rdzenia. Przed wszelkimi rabatami K20X jest około 4x większy niż Titan. Z punktu widzenia wydajności wydaje się sensowne korzystanie z Titan's nad K20X.

Trudno mi tutaj zrozumieć różnicę, czy ktoś może wyjaśnić sytuację?

Przypominam, że kupuję te karty do serwera w szafie serwerowej i działam z pełną szybkością, aż do ich śmierci; nie uważam jednak, aby efektywność korzystania z wielu układów GPU w jednym zadaniu była szczególnie ważna.

Ophion
źródło

Odpowiedzi:

13

Istnieją pewne różnice, jednak niekoniecznie dotyczą one sprzętu lub specyfikacji. Pamiętaj, że to wszystkie informacje, które zdobyłem na forach lub w wiadomościach, więc weź to wszystko z odrobiną soli.

Pierwszym z nich jest „skalowalność i niezawodność” ( źródło ). K20 został zaprojektowany do pracy w systemie klastrowym i działania z pełnym pochyleniem 24/7. Titan jest bardziej zaprojektowany do gier, więc będzie działał w tym cyklu pracy, ale może być narażony na długotrwałe problemy z życiem, jeśli zostanie użyty w ten sposób.

Sterowniki są również różne, ale nie jestem pewien głównych różnic. Różnica w projekcie kart prawdopodobnie prowadzi do stosunkowo niewielkiego wzrostu wydajności kart Tesla na tym froncie.

„Niektóre funkcje dostępne wyłącznie w Tesli obejmują:

  • NVIDIA GPUDirect RDMA dla wydajności InfiniBand
  • Hyper-Q dla MPI (Hyper-Q dla strumieni CUDA jest obsługiwany przez GeForce GTX TITAN)
  • Ochrona ECC dla wszystkich wewnętrznych i zewnętrznych rejestrów i pamięci
  • Obsługiwane narzędzia do zarządzania GPU i klastrami, takie jak Bright Computing, Ganglia. ”( Źródło )

Wskazuje to na fakt, że główną różnicą jest ich skalowalność. Jeśli chcesz uruchomić na biurku w swoim biurze, trudno byłoby argumentować przeciwko Titanowi o K20 o różnicę cen. Jeśli potrzebujesz dodatkowej wydajności wielu K20, znajdź centrum HPC i kup czas na ich serwery.

Edytować:

Po głębszym przyjrzeniu się ECC aktualizuję tę odpowiedź, aby wskazać implikacje posiadania jej na K20, a nie na Tytanie. Poniższe informacje to parafraza informacji znalezionych tutaj .

ECC sprawdza błędy w pamięci DRAM i rejestruje procesor graficzny. Błędy miękkie występują, gdy bit jest nieprawidłowo przesyłany / przechowywany. Im szybsze i bliżej siebie obwody, tym większe prawdopodobieństwo wystąpienia błędu miękkiego. Jeśli rozwiązujesz zestaw sprzężonych ODE lub układ liniowy, pojedyncza liczba wyłączona o jeden bit może znacznie zmienić wyniki w sposób niemożliwy do odtworzenia. Większość standardowych pamięci RAM i pamięci podręcznych w procesorze jest sprawdzana pod kątem tych błędów za pomocą ECC.

GPU, z drugiej strony, generalnie nie mają ECC, chociaż ich szyna pamięci jest znacznie szybsza niż na CPU. Jest tak, ponieważ jeśli piksel na ekranie jest nieco wyłączony dla jednej klatki, jakość programu nie ulega pogorszeniu. Te błędy również nie propagują. W związku z tym można zaoszczędzić wiele nieruchomości (i kosztów) na chipach, pomijając tę ​​funkcję. Ta dodatkowa złożoność prawdopodobnie powoduje dużą część dodatkowych kosztów linii Tesla.

Godric Seer
źródło
3
Świetna odpowiedź +1! Trudno uwierzyć, że te funkcje są tak kosztowne. Myślę, że wiersz „Develop with GeForce, Deploy with Tesla” z powiązanej strony Nvidii podsumowuje ważne kwestie. Wygląda na to, że najlepszym rozwiązaniem na razie jest zakup kilku GeForces i poprowadzenie ich mocno, dopóki nie rzucą niebieskiego dymu, że tak powiem.
Ophion
3
„To jednak nie powstrzymało ich przed użyciem w Oakridge”. OLCF za Cray XK7 nazwie "Titan" używa GPU Tesla K20, a nie GTX Titan. NVidia mówi, że GTX Titan ma „technologię” OLCF Titan, która jest tym samym słownictwem, gdy mówi się, że samochód ekonomiczny ma „technologię” samochodu Formuły 1. (Wydajność GTX Titan jest całkiem dobra, ale nie ma ECC i nie jest używana w żadnych większych instalacjach, o których wiem.)
Jed Brown
1
Mój błąd, źle zinterpretowałem artykuł. Zaktualizuję odpowiedź, aby nie była myląca.
Godric Seer
2

Moim zdaniem różnicą wydaje się być głównie segmentacja rynku. Jeśli jesteś naukowcem, NVidia chce, abyś obawiał się, że Twój artykuł zostanie odrzucony, ponieważ używasz GPGPU bez korekcji błędów RAM, która byłaby dostępna w K20X. Podobnie, jeśli jesteś korporacją, możesz chcieć zapłacić 4x, jeśli oznacza to mniej prawdopodobne, że zostaniesz pozwany pod zarzutem podejrzenia, że ​​twoje obliczenia nie są tak skorygowane jak to możliwe. Indywidualni gracze lub hobbystyczni gracze GPGPU są sprzedawani Titanowi, ponieważ mają mniej pieniędzy i trudniej ich przekonać w ten sposób.

k20
źródło
2
Przeprowadziłem tylko obliczenia z ECC, czy zdarza ci się, że masz dobry artykuł pokazujący awarie systemów innych niż ECC i logiczne punkty przerwania, w których jest to korzystne?
Ophion
Dla tych, którzy chcą podsumowania bardzo doskonałego linku przez BenC: miękkie błędy, które ECC naprawiłoby, są niezwykle rzadkie, a artykuł posuwa się aż do zalecania wyłączenia ECC w Tesli dla zwiększenia prędkości. Zastrzeżenie: tak naprawdę nie zostało to przetestowane na konsolach konsumenckich.
pół-zewnętrzny zewnętrzny
0

To zależy od uruchomionej aplikacji. GPUGRID.net działa na komputerach bez ECC i wszystko jest w porządku. Wyniki są tak dobre, jak na każdej innej platformie. Acellera sprzedaje również sprzęt z kartami GeForce, aw niewielu przypadkach procesory graficzne zawiodły. GeForce to wszystko, czego potrzebujesz.

David
źródło