Czy ktoś może podać mi przybliżony czas (w nanosekundach) uzyskania dostępu do pamięci podręcznych L1, L2 i L3, a także pamięci głównej na procesorach Intel i7?
Chociaż nie jest to konkretnie kwestia programowania, znajomość tego rodzaju szczegółów dotyczących prędkości jest konieczna w przypadku niektórych wyzwań programistycznych o niskim opóźnieniu.
memory
latency
cpu-cache
low-latency
Ted Graham
źródło
źródło
Odpowiedzi:
Oto przewodnik po analizie wydajności dla serii procesorów i7 i Xeon. Powinienem podkreślić, że ma to, czego potrzebujesz, a nawet więcej (na przykład sprawdź na stronie 22 niektóre czasy i cykle na przykład).
Dodatkowo ta strona zawiera szczegółowe informacje na temat cykli zegarowych itp. Drugi link służył do obsługi następujących numerów:
EDIT2
:Najważniejsza jest notatka pod cytowaną tabelą o treści:
EDYCJA: Powinienem podkreślić, że oprócz informacji o czasie / cyklu, powyższy dokument Intel odnosi się do znacznie bardziej (niezwykle) przydatnych szczegółów dotyczących procesorów i7 i Xeon (z punktu widzenia wydajności).
źródło
Liczby, które każdy powinien znać
Od: Pierwotnie Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
źródło
Koszt dostępu do różnych wspomnień na ładnej stronie
Podsumowanie
Wartości spadły, ale ustabilizowały się od 2005 r
Jeszcze kilka ulepszeń, prognozy na 2020 rok
Zobacz także inne źródła
Stare, ale wciąż doskonałe, głębokie wyjaśnienie dotyczące interakcji pamięci i oprogramowania.
Zobacz też
Dla dalszego zrozumienia polecam doskonałą prezentację nowoczesnych architektur pamięci podręcznej (czerwiec 2014) autorstwa Gerharda Welleina , Hannesa Hofmanna i Dietmara Feya z University Erlangen-Nürnberg .
Osoby francuskojęzyczne mogą docenić artykuł SpaceFox, w którym porównuje procesor z deweloperem oczekującym na informacje potrzebne do dalszej pracy.
źródło
[A]
zamieszczone poniżej.Ze względu na przegląd prognoz na rok 2025 na 2020 rok:
W ciągu ostatnich około 44 lat technologii układów scalonych, klasyczne (niekwantowe) procesory ewoluowały, dosłownie i fizycznie „Per Aspera ad Astra” . Ostatnia dekada pokazała, że klasyczny proces zbliżył się do pewnych przeszkód, które nie mają możliwej do osiągnięcia fizycznej ścieżki naprzód.
Number of logical cores
może i może rosnąć, ale nie więcej niż trudno, jeśli nie niemożliwe do obejścia pułapu opartego na fizyce, który już uderzył, może i może wzrosnąć, ale może wzrosnąć mniej niż (moc, hałas, „zegar”) , ale problemy z dystrybucją energii i rozpraszaniem ciepła wzrośnie, może wzrosnąć, mając bezpośrednie korzyści z dużych rozmiarów pamięci podręcznej i szybszego i szerszego we / wy pamięci i pośrednich korzyści z rzadszego wymuszanego przełączania kontekstu, ponieważ możemy mieć więcej rdzeni do podziału innych wątków / procesów międzyO(n^2~3)
Frequency [MHz]
Transistor Count
O(n^2~3)
Power [W]
Single Thread Perf
(Kredyty należą do Leonardo Suriano i Karla Ruppa)
Ze względu na przegląd prognoz na rok 2020 z 2015 roku:
Dla porównania krajobrazu opóźnień CPU i GPU:
Porównanie nawet najprostszych układów CPU / cache / DRAM (nawet w jednolitym modelu dostępu do pamięci) nie jest łatwym zadaniem, w którym prędkość DRAM jest czynnikiem określającym opóźnienie, a opóźnienie załadowane (system nasycony), gdzie to ostatnie rządzi i jest coś, czego aplikacje korporacyjne będą doświadczać bardziej niż bezczynny, całkowicie rozładowany system.
Silniki GPU otrzymały wiele technicznego marketingu, podczas gdy głębokie wewnętrzne zależności są kluczem do zrozumienia zarówno prawdziwych mocnych stron, jak i prawdziwych słabości, których te architektury doświadczają w praktyce (zazwyczaj znacznie różnią się od oczekiwań agresywnego marketingu).
Zrozumienie wewnętrznych aspektów jest zatem znacznie ważniejsze niż w innych dziedzinach, w których publikowane są architektury i liczne testy porównawcze dostępne bezpłatnie. Wielkie podziękowania dla mikrotesterów GPU, którzy poświęcili swój czas i kreatywność, aby ujawnić prawdę o prawdziwych schematach pracy w testowanych urządzeniach GPU metodą czarnej skrzynki.
Przepraszam za "szerszy obraz", ale demaskowanie opóźnień ma również kardynalne ograniczenia wynikające z pojemności smREG / L1 / L2 na chipie i współczynników trafień / błędów.
Podsumowanie?
Każdy projekt oparty na małych opóźnieniach musi raczej poddawać inżynierii wstecznej "I / O-hydraulikę" (ponieważ 0 1-XFER są z natury nieściśliwe), a wynikające z nich opóźnienia rządzą obwiednią wydajności dowolnego rozwiązania GPGPU, niezależnie od tego, czy jest ono wymagające obliczeniowo ( czytaj : gdzie koszty przetwarzania wybaczają nieco bardziej słabe opóźnienia XFER ...) lub nie ( czytaj : gdzie (może być czyjeś zdziwienie) procesory są szybsze w przetwarzaniu end-to-end, niż struktury GPU [dostępne cytaty] ).
źródło
Spójrz na ten wykres "klatki schodowej", doskonale ilustrujący różne czasy dostępu (pod względem tików zegara). Zauważ, że czerwony procesor ma dodatkowy „krok”, prawdopodobnie dlatego, że ma L4 (podczas gdy inne nie).
Zaczerpnięte z tego artykułu Extremetech.
W informatyce nazywa się to „złożonością we / wy”.
źródło