Mam sekwencje takiego kodu genetycznego: ACTGgcttaTGCA
próbuję wymyślić polecenia Uniksa, aby usunąć tylko małe litery, tak aby łańcuch pojawił się jako ACTGTGCA
(usunięty gctta) .
Czy ktoś może zaoferować jakąkolwiek poradę dotyczącą odpowiednich środków? Pliki są zbyt duże, aby można je było otworzyć w edytorze tekstu, dlatego nie mogę po prostu „znaleźć i zamienić”.
Odpowiedzi:
Jeśli chcesz edytować plik w miejscu:
źródło
Na pewno możesz po prostu znaleźć i zamienić, po prostu musisz to zrobić w strumieniu, a nie ładować cały plik. Zwykle używasz
sed
do tego narzędzia . Może to wyglądać następująco:Spowoduje to dopasowanie dowolnej sekwencji małych liter i zastąpienie ich niczym.
źródło