Ankieta dotycząca narzędzi do eksploracji danych

15

Chociaż zostałem przeszkolony jako inżynier, odkryłem, że coraz bardziej interesuję się eksploracją danych. W tej chwili próbuję dokładniej zbadać tę dziedzinę. W szczególności chciałbym zrozumieć różne kategorie narzędzi programowych, które istnieją i które narzędzia są godne uwagi w każdej kategorii i dlaczego. (Zauważ, że nie powiedziałem „najlepszych” narzędzi, tylko te godne uwagi, abyśmy nie rozpoczęli wojny z płomieniami.) Szczególnie zwróć uwagę na narzędzia o otwartym kodzie źródłowym i swobodnie dostępne - chociaż nie rozumiem tego, że to oznacza Interesuje mnie tylko oprogramowanie open source i bezpłatne.

John Berryman
źródło
1
Radzę, aby była to wiki społeczności.
Tal Galili
brzmi jak pytanie o pracę domową
Neil McGuigan
@Tal Oczywiście, teraz przekonwertowane.
@el szefie - To bardzo ogólne i ogólne pytanie ... ale obawiam się, że nie jest to zadanie domowe.
John Berryman

Odpowiedzi:

7

To prawdopodobnie najbardziej wyczerpująca lista, którą znajdziesz: mloss.org

Pedro Oliveira
źródło
Koncentruje się jednak na uczeniu maszynowym, które można postrzegać jako pokrewną dziedzinę eksploracji danych, podobnie jak sztuczna inteligencja. Chociaż często jest używany jako synonim, ponieważ „przewidywanie” jest jednym z kluczowych wyzwań w eksploracji danych. Ale eksploracja danych to coś więcej niż „uczenie się”.
Ma ZAKOŃCZENIE - Anony-Mousse
7

Spójrz na

  • Weka (java, silny w klasyfikacji)
  • Pomarańczowy (skrypty python, głównie klasyfikacja)
  • GNU R (język R, nieco zorientowany na tabelę wektorową, zobacz widok zadań Uczenie maszynowe i interfejs użytkownika Rattle )
  • ELKI (Java, silny w wykrywaniu klastrów i wartości odstających, obsługa struktury indeksów dla przyspieszeń, lista algorytmów )
  • Mahout (Java, należy do Hadoop, jeśli masz klaster i ogromne zestawy danych)

oraz repozytorium uczenia maszynowego UCI dla zestawów danych.

chl
źródło
1
możesz dodać Red-R do listy (rodzaj klonu Orange w R): red-r.org
Amro
Pobrałem R i teraz się nim bawię.
John Berryman
@Amro Thanks! Jednak nie jest dostępny na platformie Mac, chyba że się mylę?
chl
Nie jestem użytkownikiem Maca, ale myślę, że kompilacja Linuksa mogłaby dla ciebie działać (musisz ręcznie zainstalować wszystkie zależności Pythona): red-r.org/forum/topic.php?id=22#post-76
Amro
@Amro spróbuję; w przeszłości testowałem RAnalyticFlow ( j.mp/bYF8xs ), ale nie byłem przekonany: jestem w zasadzie użytkownikiem CLI :-)
chl
3

Rattle to graficzny interfejs użytkownika do eksploracji danych, który zapewnia interfejs dla szerokiej gamy pakietów R.

Jeromy Anglim
źródło
3

Zobacz KNIME .

Bardzo łatwa do nauczenia. Z dużą ilością miejsca na dalsze postępy. Ładnie integruje się z Weka i R.

radek
źródło
2

RapidMiner (Java) [open source]

Amro
źródło
2

Istnieje ELKI , projekt uniwersytecki typu open source, nieco podobny do WEKA, ale znacznie silniejszy, jeśli chodzi o tworzenie klastrów i wykrywanie wartości odstających. WEKA nie jest tak naprawdę eksploracją danych, ale oprogramowaniem do uczenia maszynowego.

Ma ZAKOŃCZENIE - Anony-Mus
źródło
1

Jest ten Red-R, który ma ładny GUI i wizualny interfejs programowania. Wykorzystuje R do przetwarzania różnych analiz danych.

Stat-R
źródło
1

Rexer Anlaytics co roku przeprowadza ankietę dotyczącą zestawu narzędzi. KDnuggets ma opisy oprogramowania według branży, a także intencji.

Dimitriy V. Masterov
źródło
0

SQL Server Data Mining (SSDM) nie był aktualizowany od dawna, ale nadal jest dość konkurencyjny, jeśli wydobywasz duże relacyjne bazy danych i kostki. Powoli, ale systematycznie prześlizguję się przez testy tak wielu narzędzi górniczych, jak to tylko możliwe, a interfejs Windows Servera do SQL Servera jest najbardziej produktywny i stabilny do tej pory (szczególnie jeśli chodzi o bazy danych dla przedsiębiorstw, z których niektóre zaskakująco niechlujne interfejsy) pomimo swojego wieku. Wolałbym nowoczesny interfejs Windows Presentation Foundation (WPF), ale jest to najlepsza rzecz.

Napisałem na nim całą serię szczegółowych amatorskich samouczków zatytułowanych Chwiejne schody do eksploracji danych SQL Server , kiedy próbowałem zdobyć podstawowe umiejętności wydobywcze. Pomimo mojego niedoświadczenia są one nadal przydatne, pomagając z wyprzedzeniem zidentyfikować niektóre „gotchas”.

SQLServerSteve
źródło