Szukam ilości pamięci w bajtach (MB, GB, TB itp.) Wymaganej do przechowywania pojedynczego ludzkiego genomu. Przeczytałem kilka artykułów na Wikipedii na temat DNA, chromosomów, par zasad, genów i zgaduję, ale zanim cokolwiek ujawnię, chciałbym zobaczyć, jak inni podejdą do tego problemu.
Alternatywnym pytaniem byłoby, ile atomów znajduje się w ludzkim DNA, ale to byłoby poza tematem tej strony.
Rozumiem, że będzie to przybliżenie, więc szukam minimalnej wartości, która byłaby w stanie przechowywać DNA każdego człowieka.
storage
bioinformatics
dna-sequence
genetics
Milan Babuškov
źródło
źródło
Odpowiedzi:
Jeśli ufasz takim rzeczom, oto co twierdzi Wikipedia (z http://en.wikipedia.org/wiki/Human_genome#Information_content ):
źródło
Nie przechowujesz całego DNA w jednym strumieniu, a raczej przez większość czasu jest ono przechowywane przez chromosomy.
Duży chromosom zajmuje około 300 MB, a mały około 50 MB.
Edytować:
Myślę, że pierwszym powodem, dla którego nie jest zapisywany w 2 bitach na parę zasad, jest to, że spowodowałoby to przeszkodę w pracy z danymi. Większość ludzi nie wiedziałaby, jak go przekonwertować. A nawet jeśli otrzyma się program do konwersji, wiele osób w dużych firmach lub instytutach badawczych nie może / musi pytać lub nie wie, jak zainstalować programy ...
1 GB pamięci nic nie kosztuje, nawet pobranie 3 GB zajmuje tylko 4 minuty przy 100 Mbit / s, a większość firm ma większe prędkości.
Inną kwestią jest to, że dane nie są tak proste, jak się mówi.
Na przykład metoda sekwencjonowania wymyślona przez Craig_Venter była wielkim przełomem, ale ma swoje wady . Nie mógł oddzielić długich łańcuchów tej samej pary zasad, więc nie zawsze jest w 100% jasne, czy jest 8 lub 9 A. Rzeczy, którymi musisz się później zająć ...
Innym przykładem jest metylacja DNA, ponieważ nie można przechowywać tej informacji w postaci 2-bitowej.
źródło
Zasadniczo każda para zasad zajmuje 2 bity (możesz użyć 00, 01, 10, 11 dla T, G, C i A). Ponieważ w ludzkim genomie jest około 2,9 miliarda par zasad, (2 * 2,9 miliarda) bitów ~ = 691 megabajtów.
Nie jestem ekspertem, jednak strona Human Genome w Wikipedii podaje, co następuje:
Surowy MB:
Nie jestem pewien, skąd się bierze ich rozbieżność, ale jestem pewien, że możesz to rozgryźć.
źródło
N
na przykład, gdy dane nie są mapowane, a zatem są nieznane). Kody nukleotydów IUPAC obejmują więcej niż standardowe cztery, co może zwiększyć narzut przechowywania. ebi.ac.uk/2can/tutorials/aa.htmlR
dla A lub G,N
dla dowolnej bazy,.
dla przerwy itp. Gdybyśmy mogli doskonale odczytać genom, byłoby to tylko 2 bity na bazę .Tak, minimalna ilość pamięci RAM potrzebna dla całego ludzkiego DNA to około 770 MB. Jednak reprezentacja 2-bitowa jest niepraktyczna. Trudno jest go przeszukać lub wykonać na nim jakieś obliczenia. Dlatego niektórzy matematycy opracowali bardziej efektywny sposób przechowywania tych sekwencji zasad ... i wykorzystania ich w algorytmach wyszukiwania i porównywania, takich jak na przykład GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Ta aplikacja działa teraz na moim komputerze, więc mogę Ci powiedzieć ... że praktycznie ma DNA przechowywane w około: 1 563 MB .
źródło
Większość odpowiedzi, z wyjątkiem użytkowników Slaytona, Rauchen, Paula Amstronga, jest w błędzie, jeśli chodzi o czyste przechowywanie jeden na jeden bez technik kompresji.
Ludzki genom z 3 Gb nukleotydów odpowiada 3 Gb bajtów, a nie ~ 750 MB. Skonstruowany genom „haploidalny” według NCBI ma obecnie rozmiar 3436687 kb lub 3,436687 Gb. Sprawdź tutaj .
Haploid = pojedyncza kopia chromosomu. Diploid = dwie wersje haploidu. Ludzie mają 22 unikalne chromosomy x 2 = 44. Mężczyzna 23. chromosom to X, Y i stanowi łącznie 46. Suki 23 chrom. wynosi X, X, a więc w sumie 46.
W przypadku mężczyzn byłby to chromosom 23 + 1 w miejscu przechowywania danych na dysku twardym, a dla kobiet 23 chromosomy, co wyjaśnia drobne różnice, o których od czasu do czasu wspomina się w odpowiedziach. X chrom. od samców jest równy chromowi X. od samic.
W ten sposób ładowanie genomu (23 + 1) do pamięci odbywa się w częściach przez BLAST przy użyciu skonstruowanych baz danych z plików fasta. Niezależnie od wersji spakowanych lub nie, nukleotydy trudno skompresować. We wczesnych latach jedną z używanych sztuczek było zastąpienie powtórzeń tandemowych (GACGACGAC z krótszym kodowaniem, np. „3GAC”; 9 do 4 bajtów). Powodem była oszczędność miejsca na dysku twardym (obszar talerzy HDDD 500bm-2GB z 7.200 rpm i złączami SCSI). W przypadku wyszukiwania sekwencji dokonano tego również za pomocą zapytania.
Gdyby pamięć "zakodowanego nukleotydu" wynosiłaby 2 bity na literę, otrzymujesz bajt:
A = 00
C = 01
G = 10
T = 11
Tylko w ten sposób w pełni zyskasz na pozycjach 1, 2, 3, 4, 5, 6, 7 i 8 za 1 bajt kodowania. Na przykład kombinacja 00.01.10.11 (jako bajt
00011011
) odpowiadałaby wówczas „ACTG” (i byłaby wyświetlana w pliku tekstowym jako nierozpoznawalny znak). Samo to jest odpowiedzialne za czterokrotne zmniejszenie rozmiaru pliku, co widzimy w innych odpowiedziach. W związku z tym rozmiar 3,4 Gb zostanie zmniejszony do 0,85917175 Gb ... ~ 860 MB, w tym wymagany wówczas program konwersji (23kb-4mb).Ale ... w biologii chcesz być w stanie coś przeczytać, więc kompresja gzip jest więcej niż wystarczająca. Po rozpakowaniu nadal możesz go przeczytać. Jeśli użyto tego bajtu, odczytanie danych będzie trudniejsze. Dlatego w rzeczywistości pliki fasta są zwykłymi plikami tekstowymi.
źródło
Genom ludzki zawiera 2,9 miliarda par zasad. Więc jeśli przedstawisz każdą parę zasad jako bajt, zajmie to 2,9 miliarda bajtów lub 2,9 GB. Prawdopodobnie możesz wymyślić bardziej kreatywny sposób przechowywania par zasad, ponieważ każda para zasad wymaga tylko 2 bitów. Więc prawdopodobnie mógłbyś przechowywać 4 pary bazowe na bajt, zmniejszając w sumie mniej niż GB.
źródło
Istnieją 4 zasady nukleotydowe, które tworzą nasze DNA, są to A, C, G, T, dlatego każda zasada w DNA zajmuje 2 bity. Baz jest około 2,9 miliarda, czyli około 700 megabajtów. Dziwne jest to, że wypełniłoby normalną płytę CD z danymi! zbieg okoliczności?!?
źródło
po prostu to zrobiłem. surowa sekwencja to ~ 700 MB. jeśli ktoś używa ustalonej sekwencji pamięci lub algorytmu pamięci o ustalonej sekwencji - i fakt, że zmiany wynoszą 1% i, oblicza się ~ 120 MB z pamięcią perchromosomową o przesunięciu sekwencji o ustaloną elta. to wszystko do przechowywania.
źródło
Wszystkie odpowiedzi pomijają fakt, że nuDNA nie jest jedynym DNA definiującym ludzki genom. mtDNA jest również dziedziczone i wnosi dodatkowe 16 500 par zasad do ludzkiego genomu, zbliżając go bardziej do przypuszczeń Wikipedii, że 770 MB dla mężczyzn i 756 MB dla kobiet.
Nie oznacza to, że ludzki genom można łatwo przechowywać na pendrive o pojemności 4 GB. Bity same w sobie nie reprezentują informacji, jest to połączenie bitów, które reprezentują informacje. Tak więc w przypadku nuDNA i mtDNA bity są kodowane (nie mylić ze skompresowanymi), aby reprezentowały białka i enzymy, które same w sobie wymagałyby wielu MB nieprzetworzonych danych, szczególnie pod względem funkcjonalności.
Do przemyślenia: 80% ludzkiego genomu nazywa się „niekodującym” DNA, więc czy naprawdę wierzyłeś, że całe ludzkie ciało i mózg można przedstawić w zaledwie 151–154 MB surowych danych?
źródło
Istnieją tylko 2 rodzaje par zasad, cytozyna może wiązać się tylko z guaniną, a adenina może wiązać się tylko z tyminą, więc każdą parę zasad można uznać za pojedynczy bit. Oznacza to, że cała nić ludzkiego DNA ~ 3 miliardy „bitów” miałaby około ~ 350 megabajtów.
źródło
Jedna podstawa - T, C, A, G (w systemie liczbowym o podstawie 4: 0, 1, 2, 3) - jest kodowana jako dwa bity (nie jeden), więc jedna para zasad jest kodowana przez cztery bity .
źródło