Napisz program, który w jak najkrótszym czasie będzie rozkładał liczbę na półpierwszą.
Do celów testowych użyj tego: 38! +1 (523022617466601111760007224100074291200000001)
Jest równa: 14029308060317546154181 × 37280713718589679646221
fastest-code
primes
Soham Chowdhury
źródło
źródło
12259243
zostanie wykorzystany do przetestowania szybkości programów, wyniki będą tak małe, że nie dostrzeżesz żadnych statystycznie istotnych różnic.Odpowiedzi:
Python (w / PyPy JIT v1.9) ~ 1.9s
Korzystanie z wielokrotnego wielomianowego sita kwadratowego . Uznałem to za wyzwanie dla kodu, więc zdecydowałem się nie używać żadnych bibliotek zewnętrznych (jak
log
sądzę, poza funkcją standardową ). Podczas pomiaru czasu należy użyć PyPy JIT , ponieważ powoduje on taktowanie 4-5 razy szybsze niż cPython .Aktualizacja (2013-07-29):
Od czasu pierwszego opublikowania wprowadziłem kilka drobnych, ale znaczących zmian, które zwiększają ogólną prędkość około 2,5x.
Aktualizacja (2014-08-27):
Ponieważ ten post wciąż jest przedmiotem zainteresowania, zaktualizowałem
my_math.py
poprawianie dwóch błędów dla każdego, kto może go używać:isqrt
był wadliwy, czasami wytwarzając niepoprawny wynik dla wartości bardzo zbliżonych do idealnego kwadratu. Zostało to poprawione, a wydajność wzrosła dzięki zastosowaniu znacznie lepszego seedu.is_prime
został zaktualizowany. Moja poprzednia próba usunięcia idealnego kwadratowego 2-sprpsa była w najlepszym wypadku bez serca. Dodałem kontrolę 3-sprp - technikę stosowaną przez Mathmatica - aby upewnić się, że testowana wartość jest wolna od kwadratów.Aktualizacja (24.11.2014):
Jeśli pod koniec obliczeń nie znaleziono nietrywialnych kongruencji, program wyświetla teraz dodatkowe wielomiany. Zostało to wcześniej oznaczone w kodzie jako
TODO
.mpqs.py
moja_math.py
Przykładowe I / O:
Uwaga: niestosowanie tej
--verbose
opcji da nieco lepsze czasy:Podstawowe koncepcje
Zasadniczo sito kwadratowe opiera się na następującej obserwacji: każdy nieparzysty kompozyt n może być reprezentowany jako:
Nie jest to trudne do potwierdzenia. Ponieważ n jest nieparzyste, odległość między dowolnymi dwoma kofaktorami n musi wynosić nawet 2d , gdzie x jest punktem środkowym między nimi. Co więcej, ta sama relacja obowiązuje dla dowolnej wielokrotności n
Zauważ, że jeśli takie x i d można znaleźć, natychmiast spowoduje to (niekoniecznie pierwszą) wartość n , ponieważ x + d i x - d dzielą n z definicji. Relację tę można dodatkowo osłabić - w konsekwencji dopuszczenia potencjalnych trywialnych zgodności - do następującej postaci:
Ogólnie więc, jeśli znajdziemy dwa idealne kwadraty, które są równoważne mod n , to jest całkiem prawdopodobne, że możemy bezpośrednio wytworzyć współczynnik n a la gcd (x ± d, n) . Wydaje się to dość proste, prawda?
Tyle że nie. Jeśli zamierzamy przeprowadzić wyczerpujące przeszukanie wszystkich możliwych x , musielibyśmy przeszukać cały zakres od [ √ n , √ ( 2n ) ], który jest nieznacznie mniejszy niż pełny podział próbny, ale wymaga również kosztownej
is_square
operacji przy każdej iteracji do potwierdź wartość d . O ile nie jest znany wcześniej, że n ma czynniki bardzo blisko √ n , podział próbny może być szybciej.Być może możemy jeszcze bardziej osłabić tę relację. Załóżmy, że wybraliśmy x , na przykład dla
pełna faktoryzacja liczb pierwszych y jest łatwo znana. Gdybyśmy mieli wystarczającą liczbę takich relacji, powinniśmy być w stanie skonstruować odpowiednie d , jeśli wybieramy liczbę y taką, że ich iloczyn jest idealnym kwadratem; to znaczy wszystkie czynniki pierwsze są wykorzystywane parzystą liczbę razy. W rzeczywistości, jeśli mamy więcej takich y niż całkowita liczba unikalnych czynników pierwszych, które one zawierają, gwarantuje się, że istnieje rozwiązanie; Staje się układem równań liniowych. Powstaje teraz pytanie, jak wybraliśmy takie x ? Tu właśnie zaczyna się przesiewanie.
Sito
Rozważ wielomian:
Następnie dla dowolnej liczby pierwszej p i liczby całkowitej k obowiązuje następująca zasada:
Oznacza to, że po rozwiązaniu pierwiastków wielomianu mod p - to znaczy, że znalazłeś x taki, że y (x) ≡ 0 (mod p) , ergo y jest podzielne przez p - to znalazłeś nieskończoną liczbę takich x . W ten sposób możesz przesiać w zakresie x , identyfikując małe czynniki pierwsze y , miejmy nadzieję, znajdując takie, dla których wszystkie czynniki pierwsze są małe. Takie liczby, znane jako k-gładkie , gdzie k jest największym zastosowanym współczynnikiem podstawowym.
Jednak z tym podejściem wiąże się kilka problemów. Nie wszystkie wartości x są odpowiednie, w rzeczywistości jest ich bardzo niewiele, skupionych wokół √ n . Mniejsze wartości staną się w dużej mierze ujemne (z powodu terminu -n ), a większe wartości staną się zbyt duże, tak że jest mało prawdopodobne, aby ich pierwsza faktoryzacja składała się tylko z małych liczb pierwszych. Będzie wiele takich x , ale chyba że faktoryzowany kompozyt jest bardzo mały, jest bardzo mało prawdopodobne, że znajdziesz wystarczająco dużo wygładzeń, aby uzyskać faktoryzację. I tak dla większego n konieczne staje się przesianie wielu wielomianów danej formy.
Wiele wielomianów
Więc potrzebujemy więcej wielomianów do przesiewania? Co powiesz na to:
To zadziała. Zauważ, że A i B mogą być dosłownie dowolnymi liczbami całkowitymi, a matematyka nadal obowiązuje. Wszystko, co musimy zrobić, to wybrać kilka losowych wartości, rozwiązać pierwiastek wielomianu i przesiać wartości bliskie zeru. W tym momencie moglibyśmy nazwać to wystarczająco dobrym: jeśli rzucisz wystarczającą liczbę kamieni w losowych kierunkach, prędzej czy później zepsujesz okno.
Tyle że z tym też jest problem. Jeśli nachylenie wielomianu jest duże na punkcie przecięcia x, co będzie, jeśli nie będzie względnie płaskie, będzie tylko kilka odpowiednich wartości do przesiewania na wielomian. To zadziała, ale skończysz przesiewać wiele wielomianów, zanim dostaniesz to, czego potrzebujesz. Czy możemy zrobić lepiej?
Możemy zrobić lepiej. Obserwacja, w wyniku Montgomery, jest następująca: jeśli A i B są wybrane w taki sposób, że istnieje pewne C spełniające
wtedy cały wielomian może zostać przepisany jako
Ponadto, jeśli A zostanie wybrany jako idealny kwadrat, wiodący składnik A może zostać pominięty podczas przesiewania, co skutkuje znacznie mniejszymi wartościami i znacznie bardziej płaską krzywą. W przypadku takiego rozwiązania istnieje, n musi być kwadratowe pozostałość mod √ , który może być znany natychmiast obliczania symbol Legendre'a :
( N | √A ) = 1 . Należy zauważyć, że aby rozwiązać B , należy znać całkowite rozkładanie na czynniki pierwsze √A (aby wziąć modułowy pierwiastek kwadratowy √n (mod √A) ), dlatego właśnie √A jest zwykle wybierana jako liczba pierwsza.
Można wówczas wykazać, że jeśli , to dla wszystkich wartości x ∈ [ -M, M ] :
A teraz wreszcie mamy wszystkie elementy niezbędne do wdrożenia naszego sita. A może my?
Potęgi liczb pierwszych jako czynniki
Nasze sito, jak opisano powyżej, ma jedną poważną wadę. Można go określić, które wartości x spowoduje y podzielna przez p , ale nie można określić, czy to y jest podzielna przez siły z p . Aby to ustalić, musielibyśmy przeprowadzić podział próbny na przesiewaną wartość, dopóki nie będzie już podzielna przez p . Wydawało się, że osiągnęliśmy impassé: cały punkt sita był taki, że nie musieliśmy tego robić. Czas sprawdzić instrukcję.
To wygląda całkiem przydatne. Jeśli suma ln wszystkich małych czynników pierwszych y jest zbliżona do oczekiwanej wartości ln (y) , to prawie pewne, że y nie ma innych czynników. Ponadto, jeśli obniżymy nieco wartość oczekiwaną, możemy również zidentyfikować wartości jako gładkie, które mają kilka mocy liczb pierwszych jako czynników. W ten sposób możemy wykorzystać sito jako proces „wstępnej kontroli” i uwzględnić tylko te wartości, które prawdopodobnie będą gładkie.
Ma to również kilka innych zalet. Należy pamiętać, że małe liczby pierwsze przyczyni się bardzo niewiele do ln sumy, ale mimo to wymaga najwięcej czasu sita. Przesiewanie wartość 3 wymaga więcej czasu niż 11, 13, 17, 19 i 23 w połączeniu . Zamiast tego możemy po prostu pominąć kilka pierwszych liczb pierwszych i odpowiednio obniżyć próg, zakładając, że pewien procent z nich minąłby.
Innym rezultatem jest to, że pewna liczba wartości będzie mogła „prześlizgnąć się”, które są w większości gładkie, ale zawierają jeden duży kofaktor. Możemy po prostu odrzucić te wartości, ale załóżmy, że znaleźliśmy inną, w większości gładką wartość, z dokładnie tym samym kofaktorem. Następnie możemy użyć tych dwóch wartości do skonstruowania użytecznego y ; ponieważ ich produkt będzie zawierał ten duży kofaktor do kwadratu, nie trzeba go już brać pod uwagę.
Kładąc wszystko razem
Ostatnią rzeczą, jaką musimy zrobić, to użyć tych wartości y skonstruować odpowiednią X i d . Załóżmy, że bierzemy pod uwagę tylko kwadratowe współczynniki y , to znaczy czynniki pierwsze mocy nieparzystej. Następnie każde y można wyrazić w następujący sposób:
które można wyrazić w postaci macierzy:
Problemem staje się znalezienie wektora v takiego, że vM = ⦳ (mod 2) , gdzie ⦳ jest wektorem zerowym. Oznacza to, że w celu rozwiązania dla lewej przestrzeni NULL M . Można tego dokonać na wiele sposobów, z których najprostszy jest wykonać eliminacji Gaussa o M T , zastępując operacji dodawania rząd rzędem XOR . Spowoduje to powstanie szeregu wektorów bazowych o zerowej przestrzeni, których dowolna kombinacja da prawidłowe rozwiązanie.
Konstrukcja x jest dość prosta. Jest to po prostu iloczyn Ax + B dla każdego zastosowanego y . Konstrukcja d jest nieco bardziej skomplikowana. Gdybyśmy wzięli iloczyn całego y , otrzymalibyśmy wartość z 10s tysięcy, jeśli nie 100s tysięcy cyfr, dla których musimy znaleźć pierwiastek kwadratowy. To obliczenie jest niepraktycznie drogie. Zamiast tego, możemy śledzić nawet potęg liczb pierwszych podczas procesu przesiewania, a następnie użyj a i xor operacje na wektorach czynników nie-kwadratowych zrekonstruować pierwiastek kwadratowy.
Wydaje mi się, że osiągnąłem limit 30000 znaków. Achh cóż, przypuszczam, że to wystarczy.
źródło
Cóż, twój 38! +1 złamał mój skrypt php, nie jestem pewien, dlaczego. W rzeczywistości każda półpierwsza liczba składająca się z ponad 16 cyfr łamie mój skrypt.
Jednak używając 8980935344490257 (86028157 * 104395301) mój skrypt zarządzał czasem 25,963 sekundy na moim komputerze domowym (2,61 GHz AMD Phenom 9950). Dużo szybszy niż mój komputer roboczy, który miał prawie 31 sekund przy 2,93 GHz Core 2 Duo.
php - 757 znaków w tym. nowe linie
Byłbym zainteresowany tym samym algorytmem w c lub innym skompilowanym języku.
źródło
lcm(2, 3, 5, 7) == 210
wzór liczb wyeliminowany przez te czynniki będzie się powtarzał co 210 liczb i pozostanie tylko 48. W ten sposób możesz wyeliminować 77% wszystkich liczb z podziału próbnego zamiast 50%, biorąc tylko szanse.