Co powoduje tak dużą zmienność w cyklach dla prostej ciasnej pętli z -O0, ale nie -O3, na Cortex-A72?

Przeprowadzam eksperymenty, aby uzyskać bardzo spójne środowiska wykonawcze dla fragmentu kodu. Kod, który aktualnie sprawdzam, jest dość arbitralnym obciążeniem procesora: int cpu_workload_external_O3(){ int x = 0; for(int ind = 0; ind < 12349560; ind++){ x = ((x ^ 0x123) + x * 3) %...