Która z tych dwóch metod jest bardziej wydajna w C? I jak:
pow(x,3)
vs.
x*x*x // etc?
c++
c
optimization
jamylak
źródło
źródło
x
całka czy zmiennoprzecinkowa?Odpowiedzi:
Testowałem różnicę wydajności między
x*x*...
vspow(x,i)
dla małychi
przy użyciu tego kodu:Wyniki są następujące:
Zwróć uwagę, że sumuję wynik każdego obliczenia pow, aby upewnić się, że kompilator go nie zoptymalizuje.
Jeśli użyję
std::pow(double, double)
wersji iloops = 1000000l
otrzymam:To jest na Intel Core Duo z systemem Ubuntu 9.10 64bit. Skompilowane przy użyciu gcc 4.4.1 z optymalizacją -o2.
Więc w C tak
x*x*x
będzie szybciej niżpow(x, 3)
, ponieważ nie mapow(double, int)
przeciążenia. W C ++ będzie to mniej więcej to samo. (Zakładając, że metodologia moich testów jest poprawna).Oto odpowiedź na komentarz An Markm:
Nawet jeśli wydano
using namespace std
dyrektywę, jeśli drugi parametr topow
to aint
, wówczas zostanie wywołanestd::pow(double, int)
przeciążenie from<cmath>
zamiast::pow(double, double)
from<math.h>
.Ten kod testowy potwierdza to zachowanie:
źródło
std::pow
8 * razy pętli (dla wykładnika> 2), chyba że używasz-fno-math-errno
. Wtedy może wyciągnąć wezwanie pow z pętli, tak jak myślałem. Wydaje mi się, że ponieważ errno jest globalne, bezpieczeństwo wątków wymaga, aby wywoływało pow, aby prawdopodobnie ustawić errno wiele razy ... exp = 1 i exp = 2 są szybkie, ponieważ wywołanie pow jest wyciągane z pętli tylko-O3
... ( z - ffast-math , robi też sumę-8 poza pętlą.)pow
wywołaniem wyciągniętym z pętli, więc jest tam duży błąd. Wygląda też na to, że głównie testujesz opóźnienie dodawania FP, ponieważ wszystkie testy są wykonywane w tym samym czasie. Spodziewałbyś się, żetest5
będzie wolniejszy niżtest1
, ale tak nie jest. Użycie wielu akumulatorów podzieliłoby łańcuch zależności i ukryłoby opóźnienie.pow
do ciągle zmieniającej się wartości (aby zapobiec wyciągnięciu powtarzającego się wyrażenia pow).To niewłaściwe pytanie. Właściwe pytanie brzmiałoby: „Który z nich jest łatwiejszy do zrozumienia dla ludzkich czytelników mojego kodu?”
Jeśli prędkość ma znaczenie (później), nie pytaj, ale mierz. (A wcześniej, zmierz, czy optymalizacja faktycznie spowoduje jakąkolwiek zauważalną różnicę.) Do tego czasu pisz kod tak, aby był najłatwiejszy do odczytania.
Edytuj
Tylko, aby to wyjaśnić (chociaż już powinno być): Przełomowe przyspieszenia zwykle wynikają z takich rzeczy, jak użycie lepszych algorytmów , poprawa lokalizacji danych , zmniejszenie użycia pamięci dynamicznej , wyniki obliczeń wstępnych itp. Rzadko kiedy pochodzą z mikro-optymalizacja wywołań pojedynczych funkcji , a gdzie to robią, robią to w bardzo niewielu miejscach , co można by znaleźć tylko przez staranne (i czasochłonne) profilowanie , częściej niż nigdy można je przyspieszyć, wykonując bardzo nieintuicyjne rzeczy (np. wstawianie
noop
wypowiedzi), a to, co jest optymalizacją dla jednej platformy, jest czasami pesymizacją dla innej (dlatego zamiast pytać trzeba mierzyć, bo nie znamy / nie mamy do końca swojego środowiska).Jeszcze raz podkreślę: nawet w nielicznych aplikacjach, w których takie rzeczy mają znaczenie, nie mają one znaczenia w większości miejsc, w których są używane, i jest bardzo mało prawdopodobne, że znajdziesz miejsca, w których mają one znaczenie, patrząc na kod. Naprawdę musisz najpierw zidentyfikować gorące punkty , ponieważ w przeciwnym razie optymalizacja kodu jest tylko stratą czasu .
Nawet jeśli pojedyncza operacja (taka jak obliczenie kwadratu o jakiejś wartości) zajmuje 10% czasu wykonywania aplikacji (co jest dość rzadkie w edytorze IME), a nawet optymalizacja oszczędza 50% czasu potrzebnego na tę operację (którym IME jest nawet dużo, dużo rzadziej), nadal sprawiałeś, że aplikacja była trwała tylko 5% mniej czasu .
Twoi użytkownicy będą potrzebować stopera, aby to zauważyć. (Chyba w większości przypadków coś pod 20% przyspieszenie niezauważone dla większości użytkowników. I to jest cztery takie miejsca trzeba znaleźć).
źródło
x*x
lubx*x*x
będzie szybszy niżpow
, ponieważpow
musi zająć się przypadkiem ogólnym, podczas gdyx*x
jest konkretny. Możesz również wyeliminować wywołanie funkcji i tym podobne.Jeśli jednak znajdziesz się w takiej mikrooptymalizacji, musisz zdobyć profilera i zrobić poważne profilowanie. Ogromne prawdopodobieństwo jest takie, że nigdy nie zauważysz żadnej różnicy między nimi.
źródło
x*x*x
kontra podwójnestd::pow(double base, int exponent)
w pętli czasowej i nie widzę statystycznie znaczącej różnicy w wydajności.Zastanawiałem się również nad problemem z wydajnością i miałem nadzieję, że zostanie on zoptymalizowany przez kompilator na podstawie odpowiedzi z @EmileCormier. Martwiłem się jednak, że kod testowy, który pokazał, nadal pozwoli kompilatorowi na optymalizację wywołania std :: pow (), ponieważ za każdym razem używane były te same wartości, co pozwoliłoby kompilatorowi na przechowywanie wyników i użyj go ponownie w pętli - wyjaśniłoby to prawie identyczne czasy wykonywania dla wszystkich przypadków. Więc też się temu przyjrzałem.
Oto kod, którego użyłem (test_pow.cpp):
Zostało to skompilowane przy użyciu:
Zasadniczo różnica polega na tym, że argumentem std :: pow () jest licznik pętli. Tak jak się obawiałem, różnica w wydajności jest wyraźna. Bez flagi -O2 wyniki w moim systemie (Arch Linux 64-bit, g ++ 4.9.1, Intel i7-4930) były następujące:
W przypadku optymalizacji wyniki były równie uderzające:
Wygląda więc na to, że kompilator przynajmniej próbuje zoptymalizować przypadek std :: pow (x, 2), ale nie przypadek std :: pow (x, 3) (zajmuje to ~ 40 razy dłużej niż std :: pow (x, 2) przypadek). We wszystkich przypadkach ręczne rozszerzanie działało lepiej - ale szczególnie w przypadku Power 3 (60 razy szybciej). Warto o tym pamiętać, uruchamiając std :: pow () z mocami całkowitymi większymi niż 2 w ciasnej pętli ...
źródło
Najbardziej efektywnym sposobem jest rozważenie wykładniczego wzrostu mnożenia. Sprawdź ten kod dla p ^ q:
źródło
Jeśli wykładnik jest stały i mały, rozszerz go, minimalizując liczbę mnożeń. (Na przykład,
x^4
nie jest optymalniex*x*x*x
, aley*y
gdziey=x*x
. Ix^5
jesty*y*x
gdziey=x*x
. I tak dalej.) Dla stałych wykładników całkowitych, po prostu napisz już zoptymalizowaną formę; z małymi wykładnikami jest to standardowa optymalizacja, która powinna być wykonywana niezależnie od tego, czy kod był profilowany, czy nie. Zoptymalizowany formularz będzie szybszy w tak dużym procencie przypadków, że w zasadzie zawsze warto to zrobić.(Jeśli używasz Visual C ++,
std::pow(float,int)
przeprowadza optymalizację, o której wspominam, gdzie sekwencja operacji jest powiązana ze wzorem bitowym wykładnika. Nie gwarantuję jednak, że kompilator rozwinie pętlę za Ciebie, więc nadal warto to robić to ręcznie.)[edytuj] BTW
pow
ma (nie) zaskakującą tendencję do pojawiania się na wynikach profilera. Jeśli nie jest to absolutnie potrzebne (tj. Wykładnik jest duży lub nie jest stałą) i w ogóle martwisz się o wydajność, najlepiej napisać optymalny kod i poczekać, aż profiler powie ci, że to jest (zaskakująco ) marnowanie czasu przed dalszym myśleniem. (Alternatywą jest zadzwonićpow
i poprosić profilera, aby powiedzieć Ci, że to (nie jest zaskakujące) marnowanie czasu - eliminujesz ten krok, robiąc to inteligentnie.)źródło
Byłem zajęty podobnym problemem i wyniki mnie zaskakują. Obliczałem x⁻³ / ² dla grawitacji Newtona w sytuacji n-ciał (przyspieszenie od innego ciała o masie M znajdującego się na wektorze odległości d):
a = M G d*(d²)⁻³/²
(gdzie d² jest iloczynem kropkowym (skalarnym) samego d), i pomyślałem, że obliczanieM*G*pow(d2, -1.5)
będzie prostsze niżM*G/d2/sqrt(d2)
Sztuczka polega na tym, że dotyczy to małych systemów, ale gdy systemy rosną,
M*G/d2/sqrt(d2)
stają się bardziej wydajne i nie rozumiem, dlaczego rozmiar systemu wpływa na ten wynik, ponieważ powtarzanie operacji na różnych danych nie. To tak, jakby były możliwe optymalizacje w miarę rozwoju systemu, ale które nie są możliwe w przypadkupow
źródło