it-swarm.com.de

Wie viel Speicher wäre für die Speicherung eines menschlichen Genoms erforderlich?

Ich suche nach der Menge an Speicher in Byte (MB, GB, TB usw.), die für die Speicherung eines einzelnen menschlichen Genoms erforderlich ist. Ich habe in Wikipedia ein paar Artikel über DNA, Chromosomen, Basenpaare, Gene und einige grobe Vermutungen gelesen, aber bevor ich irgendetwas offenlegte, möchte ich sehen, wie andere dieses Problem angehen.

Eine alternative Frage wäre, wie viele Atome in der menschlichen DNA vorhanden sind, aber das wäre für diese Site ein Thema.

Ich verstehe, dass dies eine Annäherung sein wird, also suche ich nach dem minimalen Wert, der in der Lage wäre, DNA von jedem Menschen zu speichern.

63
Milan Babuškov

Wenn Sie solchen Dingen vertrauen, behauptet Wikipedia (von http://en.wikipedia.org/wiki/Human_genome#Information_content ):

Die 2,9 Milliarden Basenpaare des haploiden menschlichen Genoms entsprechen einem maximal etwa 725 Megabyte an Daten, da jedes Basispaar .__ sein kann. kodiert mit 2 Bits. Da einzelne Genome um weniger als 1% von .__ abweichen. Sie können miteinander verlustfrei auf etwa 4 Megabyte komprimiert werden.

51

Sie speichern nicht die gesamte DNA in einem Strom, sondern meistens, wenn sie von Chromosomen gespeichert wird. 

Ein großes Chromosom benötigt ca. 300 MB und ein kleines ca. 50 MB. 


Bearbeiten:

Ich denke, der erste Grund, warum es nicht in 2 Bits pro Basenpaar gespeichert wird, ist, dass dies eine Hürde mit den Daten verursachen würde. Die meisten Leute würden nicht wissen, wie sie es konvertieren sollen. Und selbst wenn ein Programm zur Umstellung gegeben wird, dürfen/müssen viele Leute in großen Unternehmen oder Forschungsinstituten nicht fragen oder wissen nicht, wie sie Programme installieren ... 

1 GB Speicherplatz kostet nichts, selbst der Download von 3 GB dauert bei 100 Mbitsps nur 4 Minuten und die meisten Unternehmen haben höhere Geschwindigkeiten. 

Ein weiterer Punkt ist, dass die Daten nicht so einfach sind, wie man Ihnen sagt. 

z.B. Die von Craig_Venter erfundene Sequenzierungsmethode war ein großer Durchbruch, hat aber auch Nachteile. Lange Ketten desselben Basenpaares konnten nicht getrennt werden, so dass es nicht immer zu 100% klar ist, ob 8 A oder 9 A vorhanden sind. Dinge, um die man sich später kümmern muss ...

Ein anderes Beispiel ist die DNA-Methylierung , weil Sie diese Informationen nicht in einer 2-Bit-Darstellung speichern können. 

24
rauschen

Grundsätzlich benötigt jedes Basispaar 2 Bits (Sie können 00, 01, 10, 11 für T, G, C und A verwenden). Da es im menschlichen Genom etwa 2,9 Milliarden Basenpaare gibt, sind (2 * 2,9 Milliarden) Bits ~ = 691 Megabyte. 

Ich bin kein Experte, jedoch sagt die Human Genome - Seite auf Wikipedia Folgendes:

Raw MB:

  • Männchen (XY): 770 MB
  • Weiblich (XX): 756 MB

Ich bin nicht sicher, woher ihre Abweichung kommt, aber ich bin sicher, dass Sie es herausfinden können.

11
Paul Armstrong

Ja, das für die gesamte menschliche DNA erforderliche Minimum RAM beträgt etwa 770 MB. Die 2-Bit-Darstellung ist jedoch praktisch. Es ist schwer, darin zu suchen oder Berechnungen durchzuführen. Daher haben einige Mathematiker eine effektivere Methode entwickelt, um diese Sequenzen von Basen zu speichern ... und sie in Such- und Vergleichsalgorithmen zu verwenden, wie zum Beispiel GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html) Diese Anwendung läuft jetzt auf meinem PC, daher kann ich Ihnen sagen, dass die DNA praktisch in etwa gespeichert ist: 1 563 MB .

Das menschliche Genom enthält 2,9 Milliarden Basenpaare. Wenn Sie also jedes Basenpaar als Byte darstellen, würde dies 2,9 Milliarden Byte oder 2,9 GB betragen. Sie könnten wahrscheinlich eine kreativere Art der Speicherung von Basispaaren finden, da jedes Basispaar nur 2 Bits benötigt. Sie könnten also wahrscheinlich 4 Basispaare pro Byte speichern, wodurch weniger als ein GB benötigt wird.

4
slayton

Es gibt 4 Nukleotidbasen, aus denen unsere DNA besteht. Dies sind A, C, G, T. Daher nimmt jede Base in der DNA 2Bit auf. Es gibt rund 2,9 Milliarden Basen, also rund 700 Megabyte. Das Seltsame ist, dass eine normale Daten-CD gefüllt würde! Zufall?!?

3

tat es auch einfach. Die Rohsequenz beträgt ~ 700 MB. Wenn man eine feste Speichersequenz oder einen festen Sequenzalgorithmus verwendet - und die Tatsache, dass die Änderungen 1% betragen, werden ~ 120 MB mit einem Perchromosomensequenzoffset-Delta-Speicher berechnet. das wars für die Lagerung.

2
betheguest

Die meisten Antworten, mit Ausnahme der Benutzer slayton, rauchen, Paul Amstrong, sind absolut falsch, wenn es um reinen Speicher ohne Kompressionstechniken geht. 

Das menschliche Genom mit 3Gb Nukleotiden entspricht 3Gb Bytes und nicht ~ 750 MB. Das konstruierte "hpaloid" -Genom nach NCBI ist derzeit 3436687 kb oder 3,436687 GB groß. Prüfen Sie hier für sich selbst.

Haploid = Einzelexemplar eines Chromosoms . Diploid = zwei Versionen von Haplooid . Menschen haben 22 einzigartige Chromosomen x 2 = 44 . Das männliche 23. Chromosom ist X, Y und ergibt insgesamt 46 Frauen 23. Chrom. ist X, X und macht damit insgesamt 46.

Für Männer wären es 23 + 1 Chromosomen bei der Datenspeicherung auf einer Festplatte und für Frauen 23 Chromosomen, was die kleinen Unterschiede erklärt, die gelegentlich in den Antworten erwähnt werden. Das X-Chrom. von Männern ist gleich X Chrom. von den Weibchen.

Das Laden des Genoms (23 + 1) in den Speicher erfolgt daher zum Teil über BLAST unter Verwendung von erstellten Datenbanken aus fasta-Dateien. Unabhängig von gezippten Versionen oder nicht sind Nukleotide kaum zu komprimieren. Früher war einer der Tricks, Tandem-Wiederholungen (GACGACGAC mit kürzerer Codierung, z. B. "3GAC"; 9 Byte bis 4 Byte) zu ersetzen. Der Grund war, Festplattenplatz zu sparen (Bereich der 500bm-2GB HDDD-Platten mit 7.200 U/min und SCSI-Anschlüssen). Für die Sequenzsuche wurde dies auch mit der Abfrage durchgeführt.

Wenn "kodiertes Nukleotid" eine Speicherung von 2 Bit pro Buchstabe wäre, erhalten Sie ein Byte:

A = 00 
C = 01 
G = 10 
T = 11 

Nur so profitieren Sie von den Positionen 1,2,3,4,5,6,7 und 8 für 1 Byte Codierung. Zum Beispiel die mit "ACTG" korrespondierende Kombination 00.01.10.11. Dies allein ist für die vierfache Reduzierung der Dateigröße verantwortlich, wie wir in anderen Antworten sehen. Somit werden 3,4 GB auf 0,85917175 GB ... ~ 860 MB einschließlich eines dann erforderlichen Konvertierungsprogramms (23 kb-4 mb) verkleinert.

Aber ... in der Biologie möchte man etwas lesen können, also ist die Komprimierung mehr als genug. Entpackt können Sie es immer noch lesen. Wenn diese Bytefüllung verwendet wurde, wird es schwieriger, die Daten zu lesen. Deshalb sind fasta-Dateien in Wirklichkeit reine Textdateien.

2
ZF007

Alle Antworten lassen die Tatsache außer Acht, dass nuDNA nicht die einzige DNA ist, die ein menschliches Genom definiert. mtDNA ist ebenfalls vererbt und trägt zusätzlich 16.500 Basenpaare zum menschlichen Genom bei, wodurch es der Wikipedia-Vermutung von 770 MB für Männer und 756 MB für Frauen entspricht.

Dies bedeutet nicht, dass ein menschliches Genom problemlos auf einem 4-GB-USB-Stick gespeichert werden kann. Bits stellen keine Informationen an sich dar, es ist die Kombination von Bits, die Informationen repräsentieren. Im Fall von nuDNA und mtDNA werden die Bits codiert (nicht zu verwechseln mit komprimiertem), um Proteine ​​und Enzyme darzustellen, für die an sich viele MBs an Rohdaten erforderlich wären, insbesondere hinsichtlich der Funktionalität.

Denkanstoß: 80% des menschlichen Genoms wird als "nicht kodierende" DNA bezeichnet. Haben Sie wirklich wirklich geglaubt, dass der gesamte menschliche Körper und das gesamte Gehirn in nur 151 bis 154 MB Rohdaten dargestellt werden können?

0
ar18

Jeder hat ein menschliches Genom und laut dem Nation Human Genome Research Institute verfügen wir über insgesamt 30.000 Gene mit etwa 3 Milliarden Basenpaaren (zwei Basen = Basenpaar). Es gibt 4 verschiedene Basen: Adenin (A), Guanin (G), Cytosin (C) und Thymin (T). Wir können A entweder auf 00 oder 01000001 setzen (was es normalerweise ist). Ich werde für ein Basispaar antworten, das aus zwei Bytes und zwei Bits besteht, obwohl ich denke, dass Bytes die realistischere Option sind, da die Daten einfacher zu handhaben sind. 

Ich gehe davon aus, dass die Struktur der Daten so ist, dass jede Zeile eine Gen-/Basenpaar-Sequenz ist (z. B. ATCG…), die von unten nach oben gelesen wird, da die Reihenfolge wichtig ist, ähnlich wie die Buchstaben in einem Wort Zeile unter Linux ist 1 Byte und 2 Byte unter Windows, dies hat jedoch einen vernachlässigbaren Einfluss auf die Größe.

z.B.

GENE1...
GENE2...

24.000 Gene in einem menschlichen Genom erfordern 24.000 Zeilenumbrüche = 24 KB, 38 KB (vernachlässigbar) Wenn jedes Basenpaar 2 Bytes ist und da es 3 Milliarden gibt, würde dies 6 GB entsprechen. Wenn jedes Basenpaar ist 2 Bit, dann liegt die Dateigröße bei 6.000.0000 Bit oder 750 MB.

Daher würde ich sagen, dass das menschliche Genom entweder etwa 750 MB oder 6 GB Speicherplatz beansprucht. Bitte korrigieren Sie mich oder verbessern Sie diese Antwort, wenn ich etwas verpasst habe.

0
Eli