Gdzie można uzyskać dobre zestawy danych / problemy testowe do testowania algorytmów / procedur?

41

Oceniając jakość oprogramowania, którego zamierzasz użyć (niezależnie od tego, czy jest to coś, co napisałeś, czy puszki w puszce) w pracy obliczeniowej, często dobrym pomysłem jest sprawdzenie, jak dobrze działa na standardowych zestawach danych lub problemach. Gdzie można uzyskać te testy do weryfikacji procedur obliczeniowych?

(Poproszę jedną stronę internetową / książkę na odpowiedź).

JM
źródło
Zamierzałem, aby był to post społeczności Wiki i dlatego oznaczyłem go do konwersji.
JM
3
czy to pytanie nie jest zbyt szerokie, tzn. zależy od algorytmów / charakteru problemu, którego oprogramowanie używa do rozwiązania?
Andre Holzner,
Naprawdę chciałem, aby to pytanie było wiki społeczności , @Andre (jako „duża lista” zasobów); Zaznaczyłem go do konwersji, ale nie wiem, dlaczego nie został przekonwertowany.
JM
@JM przekonwertowałem to.
David Ketcheson

Odpowiedzi:

13

Metoda wytwarzanych rozwiązań jest standardem do testowania PDE i innych solverów. Większość symbolicznych systemów algebry ma możliwości generowania kodu, co jest przydatne do tworzenia produkowanych rozwiązań. SymPy i Maple mają kod funkcji, między innymi do tego celu.

aterrel
źródło
10

Zestaw testowy dla IVP (Problemy z wartością początkową dla solverów ODE) jest obecnie utrzymywany przez ludzi z uniwersytetu w Bari we Włoszech, którzy przejęli go od CWI Amsterdam.

Jitse Niesen
źródło
1
Niektóre dodatkowe zestawy testów dla IVP są podane w tej odpowiedzi od JM na Math.StackExchange: math.stackexchange.com/a/59398
David Ketcheson
8

W obliczeniowym elektromagnetyzmie istnieje słynny (lub niesławny z powodu trudności w niektórych) zestaw problemów testowych: testowanie metod analizy elektromagnetycznej (TEAM) .

Niektóre z nich naprawdę potrzebują poważnych najnowocześniejszych technik numerycznych, aby uzyskać prawidłowe wyniki symulacji zgodne z danymi eksperymentalnymi. Na przykład problem z cewką .

Kolejny zestaw problemów testowych dla równań Maxwella opracowano za pomocą obliczeń Dauge: Benchmark dla równań Maxwella dla przybliżenia bardzo osobliwych rozwiązań . Ten w słynnej (lub niesławnej) kostce Fichera:

fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).
Shuhao Cao
źródło
7

Jeśli interesują Cię algorytmy analizy porównawczej dotyczące struktur molekularnych, baza danych pubchem ma duży zbiór cząsteczek głównie organicznych. Może to być przydatne do porównania prognoz właściwości molekularnych uzyskanych za pomocą różnych modeli / programów. Witryna ma kilka opcji pobierania dużych partii cząsteczek, które spełniają określone wcześniej kryteria (np. Skład chemiczny).

Toon Verstraelen
źródło
7

Strona internetowa CUTEr aktualizuje zestaw testowy CUTE wspomniany na stronie internetowej Arnolda Neumaiera o dodatkowe problemy związane z optymalizacją i rozwiązaniami liniowymi. Ponadto zapewnia narzędzia programowe do testowania i aktualizacji algebry liniowej oraz solverów optymalizacyjnych.

Geoff Oxberry
źródło
4

Do testowania wielowymiarowych analiz statystycznych i algorytmów uczenia maszynowego istnieje repozytorium zbioru danych UCI pod adresem http://www.ics.uci.edu/~mlearn/

Sam Roberts
źródło
3

Alan Genz zaproponował zestaw testowy funkcji w artykule Testowanie wielowymiarowych procedur integracji . Nie mogę znaleźć wersji online tego artykułu, ale odniesienia do niego można znaleźć w artykułach o bibliotece CUBA .

dls
źródło
3

Jest to zbiór referencyjnych PDE-ograniczane problemów optymalizacyjnych prowadzonego przez Roland Herzog w TU-Chemnitz tutaj .

Andrew T. Barker
źródło
2

Dobre oprogramowanie musiało zostać przetestowane i powinno powiedzieć, w jaki sposób autorzy przetestowali i albo dostarczyć same zestawy danych testowych (np. W formie testów regresji), albo przynajmniej podać linki do danych, z którymi był testowany.

Wolfgang Bangerth
źródło
Usłyszeć usłyszeć; patrz Powtarzalność ff. oraz zeszyty odtwarzalne do badań i IPython .
Denis
2

Jeśli szukasz dużych wykresów lub danych sieciowych do przetestowania. Analiza projektu Stanford Network (SNAP) ma wiele dużych zbiorów danych wykresów zazwyczaj w postaci listy anonimowej przylegania. Niektóre z ich opcji obejmują:

Dane

Właściwości danych

  • Liczba krawędzi: od około 10 do ~ 400 milionów
  • Liczba węzłów: w dowolnym miejscu od ~ 10 do ~ 100 milionów
  • Typy krawędzi: skierowane, nieukierowane, ważone, nieważone, podpisane i niepodpisane.
  • Typy sieci: ukierunkowane, nieukierowane, dwustronne, multigraficzne, czasowe, oznaczone.

Podstawowe informacje o prawdzie dostępne w zestawach danych:

Przybory

Ryan
źródło
@JM nie ma problemu! Użyłem niektóre z ich zestawów danych sieci społecznościowych jakiś czas temu dla projektu, a potem natknąłem się na tę wymianę stosów i pomyślałem, że może to być pomocne.
ryan
-3

Dane są łatwe; API do uzyskania może być trudne. Polecam Quandl . Ta strona ma ponad 10 milionów publicznie dostępnych zestawów danych dostępnych za pośrednictwem jednego, łatwego w obsłudze interfejsu API REST. Wszystkie dane są zwracane w CSV lub JSON. Lub, jeśli programowanie nie jest twoim mocnym atutem, istnieją proste sposoby na przeniesienie danych do Excela. Programiści R, Python i Ruby będą w domu z rodzimymi bibliotekami.

Ryzyko Briana
źródło
1
Witamy w Scicomp! Nie sądzę, że o takie dane chodzi w pytaniu; do testowania algorytmów potrzebny jest nie tylko zestaw danych, ale także odpowiedni znany wynik (w zależności od problemu / algorytmu) do porównania wyników.
Christian Clason
Dzięki, @ChristianClason. Rozumiem, co masz na myśli. Np. Jeśli oprogramowanie służy do regresji liniowej, autor jest zainteresowany zestawami danych, a także zestawem sprawdzonych wyników analizy, aby sprawdzić, czy pakiet regresji liniowej działa poprawnie.
Brian Risk