[root@server]# awk '!seen[$0]++' out.txt > cleaned
awk: (FILENAME=out.txt FNR=8547098) fatal error: internal error
Aborted
[root@server]#
„Serwer” ma: 8 GB RAM + 16 GB SWAP, x> 300 GB wolnego miejsca, amd64, procesor na pulpicie. Scientific Linux 6.6. Nic więcej na nim nie działa, aby wykonać OBCIĄŻENIE. Awk przerywa po kilku sekundach. Out.txt wynosi ~ 1,6 GB. GNU Awk 3.1.7.
Pytanie : Jak mogę usunąć zduplikowane linie, zachowując ich kolejność? Ważna jest także sprawa, np. „A” i „a” to dwie różne linie, musisz je zachować. Ale „a” i „a” są zduplikowane, potrzebny jest tylko pierwszy.
Odpowiedź może być w czymkolwiek ... jeśli awk nie jest do tego dobry ... to perl / sed .. jaki może być problem?
[root@server]# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 61945
max locked memory (kbytes, -l) 99999999
max memory size (kbytes, -m) unlimited
open files (-n) 999999
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 99999999
cpu time (seconds, -t) unlimited
max user processes (-u) 61945
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
[root@server]#
Aktualizacja: Próbowałem tego na maszynie RHEL, nie przerywa, ale nie miałem czasu czekać na zakończenie. Dlaczego linux SL różni się od RHEL?
Aktualizacja: Próbuję wirtualnego zgadywania w Ubuntu 14 .. do tej pory działa! To nie jest problem ulimit: mawk 1.3.3
root@asdf-VirtualBox:~# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 51331
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 51331
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
root@asdf-VirtualBox:~#
źródło
awk
wersje na dwóch komputerach?out.txt
? Czy to samo polecenie działa, jeśli wypróbujesz go na mniejszym pliku? Ilu użytkowników na komputerze? Czy dostępna była wystarczająca ilość pamięci dla procesu? Czy jest coś specjalnego w linii 8547098 pliku wejściowego?Odpowiedzi:
Wątpię, czy to coś zmieni, ale tak na wszelki wypadek, oto jak zrobić to samo w Perlu:
Jeśli problemem jest utrzymywanie unikalnych linii w pamięci, będzie to ten sam problem, co
awk
próbowano. Innym podejściem może być:Jak to działa:
W systemie GNU
cat -n
wstawi numer wiersza do każdego wiersza po pewnej ilości spacji, a po nim znak <tab> .cat
potokuje tę reprezentację wejściową dosort
.sort
„s-k2
opcja instruuje go tylko do rozważenia postacie z drugiego pola, aż do końca linii podczas sortowania isort
Dzieli pola domyślnie white-space (lubcat
” y wstawione spacje i <Tab> ) .Po którym następuje
-k1n
,sort
najpierw rozważa drugie pole, a następnie - w przypadku identycznych-k2
pól - pierwsze pole, ale posortowane numerycznie. Tak więc powtarzane wiersze zostaną posortowane razem, ale w kolejności, w jakiej się pojawiły.uniq
- do którego należy zignorować pierwsze pole (-f1
- a także jako oddzielone spacją) - i który powoduje powstanie listy unikalnych linii w oryginalnym pliku i jest przesyłany z powrotem dosort
.sort
sortuje się według pierwszego pola (cat
numer wstawionego wiersza) numerycznie, przywracając porządek sortowania z powrotem do tego, co było w oryginalnym pliku i przesyłając wynikicut
.cut
usuwa numery linii, które zostały wstawionecat
. Odbywa się to poprzezcut
drukowanie tylko od 2. pola do końca wiersza (cut
domyślnym ogranicznikiem jest znak <tab> ) .Ilustrować:
źródło
sort
! Ale większośćsort
może zrobićuniq
sama, abyś mógł skrócić scenariusz dosort -uk2 | sort -bk1,1n
sort
? Myślałem, że-u
to funkcja GNU.-u
i określić, że powinien zignorować 1. pole? Wedługman sort
The-u
nie jest jedną z możliwych opcji-f
, więc nie sądzę, może być używany tutaj.EDYCJA 1: Czy to naprawdę działa? (porównując)
Przypadek 1 : 100_000_000 liczb losowych (po 5 cyfr), 566 MB, 31_212 różnych wartości:
Przypadek 2 : 50_000_000 liczb losowych (po 10 cyfr), 516 MB, 48_351_464 różne wartości:
(następujące liczby nie są bardzo dokładne):
sol2 z pamięcią podręczną to:
Sortowanie można również zoptymalizować, dodając opcję buforowania (nie zrobione).
Jeden szybki wniosek:
sort
to fantastyczne polecenie!źródło
sort -uk2
isort -nk1,1
są różne. Pierwszy rozważa od klucza 2cd do końca linii, drugi rozważa tylko pierwszy klucz. Powinieneś to zmienićsort -nk1
- może być jeszcze szybciej, ale na pewno będzie bardziej niezawodny. Nawiasem mówiąc - to kilka ładnych pudełek.cat -n
robi kartę ? Nie wiem, jak to polecenie działa.cat -n
każdegoline
wspaces + the number + \t + line
- idealny format do sortowania i cięciaUżyłem
BINMODE = rw: aby zadowolić terminatory końca linii. (Mieszkam w mieszanym środowisku OS)
Logika jest prosta.
Jeśli bieżący wiersz nie znajduje się w tablicy asocjacyjnej, dodaj go do tablicy asocjacyjnej i wypisz na wyjście.
Przy takim podejściu mogą występować ograniczenia pamięci. W przypadku bardzo dużych plików i zestawów plików użyłem różnych wariantów tego, używając pamięci plików, aby ominąć ograniczenia.
źródło
Zachowująca porządek semantyka twojego problemu ma cudowną właściwość: możesz podzielić problem. Możesz to zrobić
split -l 1000000
na pliku wejściowym; 1000000 wierszy, które produkuje, ma uporządkowane leksykalnie nazwy, co jest dobre; następnie ujednolic kawałki; a następnie (w drugim przejściu) ujednolicić wyniki tych.Rozwiązuje to problem braku pamięci (poprzez ograniczenie zapotrzebowania na pamięć) kosztem przekształcenia go w rozwiązanie wielopasmowe.
Konkretnie:
Generuj dane wejściowe:
Podziel dane wejściowe:
Uruchom uniqifier naraz (zachowuje wszystkie unikalne linie wejściowe w pamięci):
Uruchom unifikator na podzielonych elementach (zachowuje tylko unikalne linie wejściowe z każdego elementu w pamięci), a następnie zmniejsz jako drugi przebieg:
Porównać:
Nie znam stosunku linii unikatowych do nieunikalnych w twoim wejściu ani tego, jak dobrze wymieszane są linie wejściowe - więc jest pewne dostrojenie, jeśli chodzi o liczbę potrzebnych plików podzielonych.
źródło
Innym podejściem (wartym opublikowania jako osobnej odpowiedzi) jest: zamiast podejścia podzielonego pliku, który tworzy pliki tymczasowe, wykonaj wsadowanie w obrębie samego oprogramowania uniqifier. Na przykład za pomocą implementacji unikatowego Ruby w celach wyjaśniających:
Chodzi o to, aby co jakiś czas usuwać zestaw skrótów. To staje się iteracyjne:
Możesz więc wielokrotnie uruchamiać tę ograniczoną wersję, dopóki liczba wierszy nie zmieni się z jednej iteracji do następnej.
Zauważ, że ta technika capped-uniqm jest niezależna od języka: możesz wyczyścić
lines_seen
tablicę co N wierszy, niezależnie od tego, czy korzystasz z awk, python, perl, C ++ itp. Istnieją metody ustawiania jasności dla wszystkich tych języków; Wierzę, żeawk
jestdelete
to nietypowe, ale powszechne.źródło