Unix - Usuń wszystkie małe litery z łańcucha

0

Mam sekwencje takiego kodu genetycznego: ACTGgcttaTGCApróbuję wymyślić polecenia Uniksa, aby usunąć tylko małe litery, tak aby łańcuch pojawił się jako ACTGTGCA (usunięty gctta) .

Czy ktoś może zaoferować jakąkolwiek poradę dotyczącą odpowiednich środków? Pliki są zbyt duże, aby można je było otworzyć w edytorze tekstu, dlatego nie mogę po prostu „znaleźć i zamienić”.

Sroka 101
źródło
O jakim Uniksie mówisz? „Unix” to nazwa rodziny, która obejmuje wiele różnych implementacji; jeśli powiesz nam, który jesteś zainteresowany, możemy udzielić odpowiedzi dostosowanych do Twojej sytuacji. Ponadto może to zyskać większą uwagę, jeśli zamiast tego zostanie migrowany do systemu Unix i Linux ; jeśli chcesz przenieść swoje pytanie, „oflaguj” je, by zwrócić uwagę moderatora.
CVn

Odpowiedzi:

2
sed 's/[a-z]//g' yourfile >> newfile

Jeśli chcesz edytować plik w miejscu:

sed -i 's/[a-z]//g' yourfile
Andy Foster
źródło
0

Na pewno możesz po prostu znaleźć i zamienić, po prostu musisz to zrobić w strumieniu, a nie ładować cały plik. Zwykle używasz seddo tego narzędzia . Może to wyglądać następująco:

sed -r 's/[a-z]*//g' input.txt

Spowoduje to dopasowanie dowolnej sekwencji małych liter i zastąpienie ich niczym.

Seth
źródło