Czy istnieje coś takiego jak silnik indeksowania pełnotekstowego, który można zapytać z wiersza poleceń i idealnie nie wymagałby używania GUI?
Szczególnie interesuje mnie indeksowanie moich ebooków i artykułów, więc jest to połączenie pdf, epub i kilku djvu. (Otwarte) Dokumenty pakietu Office byłyby fajne, ale znacznie niższe na mojej liście.
command-line
search
Julien
źródło
źródło
Odpowiedzi:
Czy spojrzałeś na Lucene lub Sfinksa? Podczas gdy będziesz musiał najpierw przeanalizować dokumenty, które chcesz zindeksować, gdy to zrobisz, każdy z nich może wyszukiwać w cli.
Dla Lucene, istnieje kilka informacji na ten sposób dostępne .
Sphinx, jest nieco bardziej niejasne, ale jest też kilka dokumentacja dostępna . Możesz przekazać strukturalne dane XML do sfinksa przez źródło danych xmlpipe2.
Lucene opiera się na Javie, a Sphinx jest zbudowany w C ++ bez żadnych zewnętrznych zależności.
Każdy z nich będzie wymagał trochę pracy, aby zrobić to, co chcesz, ale wydaje się, że jest to całkowicie wykonalne rozwiązanie.
źródło
sprawdź Xapian . Ma interfejs wiersza poleceń i może indeksować wiele formatów.
źródło
Recoll można zbudować bez GUI i będzie przeszukiwał typy dokumentów z wiersza poleceń.
Używa Xapian pod maską.
źródło
Tracker można wywołać z wiersza poleceń, a gtk + nie jest trudną zależnością dla projektu (ale może być dla pakietów).
źródło
Ta odpowiedź zaleca korzystanie z wyszukiwarki kodów Google ,
Superużytkownicy Debiana / pochodnych mogą wypróbować:
sudo apt-get install codesearch
źródło
Obecnie istnieją dwa strumienie Trackera, stabilny (0,8) i niestabilny (0,9). Twój system operacyjny prawdopodobnie ma wersję 0.8, więc jeśli możesz sobie na to pozwolić (to ma pewne krwawienia krawędź zależności oprogramowania), przejdź chwycić ostatnią tarfile (0.9.x). Ma wiele ulepszeń w stosunku do 0,8 i obecnie jest dalej stabilizowany , aby wynosił 0,10 (liczby parzyste oznaczają stabilność). Jeśli wybierzesz tę trasę, użyj tego polecenia, aby skonfigurować:
Prawdopodobnie nie będziesz mieć zainstalowanych zależności, więc lepiej jest po prostu zainstalować 0,8 z dystrybucji i po prostu unikać bitów GUI. W przypadku Debian Squeeze, Ubuntu 10.10 i Ubuntu 11.04 są one ładnie podzielone. Więc ( jako root ) uruchom:
Narzędzie CLI do tego jest
tracker-search
, więc uruchom go z--help
opcją, aby zobaczyć, jak z niego skorzystać :-)uwagi :
tracker-applet
itracker-preferences
. Mają jednak osobny pakiettracker-search-tool
interfejsu wyszukiwania GUI.źródło
Pracowałem nad napisaniem narzędzia do wyszukiwania pełnotekstowego (nowe apropos) do indeksowania i przeszukiwania stron podręcznika dla NetBSD tego lata za pomocą Sqlite3. Składa się z dwóch narzędzi wiersza poleceń:
Możesz łatwo napisać dla siebie podobne narzędzie, do plików pdf potrzebujesz biblioteki do parsowania dokumentów pdf i podobnie narzędzie do analizy otwartych dokumentów biurowych.
Możesz przeczytać więcej o projekcie tutaj
Kod jest tutaj
źródło