Die Begründerin der Bioinformatik

Foto eines Großrechners vom Typ IBM 7094 — Eine nähere Ansicht des IBM 7094, die eine  weitere Reihe von Bandlaufwerken und den „persönlichen Kartenleser“ des Bedieners zeigt. © University Archives, Rare Book & Manuscript Library,  Columbia University Libraries (mit freundlicher Genehmigung)

Stolze 47 Jahre vergingen von der Entdeckung der Molekularstruktur der DNA (Desoxyribonukleinsäure) durch Francis Crick und James Watson bis zur Entschlüsselung des menschlichen genetischen Codes.

1953 beschrieben der Brite und der US-Amerikaner die Doppelhelixstruktur der DNA, am 26. Juni 2000 gaben der britische Premierminister Tony Blair und US-Präsident Bill Clinton in einer gemeinsamen Pressekonferenz via Satellit bekannt, dass die Rohversion der Sequenz des menschlichen Genoms vorliege. Rund zehn Jahre lang hatten Wissenschaftler an dem Projekt gearbeitet: John Sulston, Direktor des britischen „Sanger Institute“ (benannt nach dem Biochemiker Frederick Sanger), war von Anfang an dabei. Mit dem Aufkommen des „Hochdurchsatz-Sequenzierungsverfahrens“ war es möglich geworden, DNA-Abschnitte schneller und kostengünstiger als zuvor zu entschlüsseln. In den USA vertraten Francis Collins (National Human Genome Research Institute) die staatlich finanzierte Seite des Projekts und J. Craig Venter (Celera Genomics Corporation) den privatwirtschaftlichen Sektor. Ein Hauptmotiv für die Entschlüsselung und Finanzierung des Projekts waren erhoffte medizinische Anwendungen.

Bioinformatik als neues Fachgebiet

Ähnlich wie andere Großprojekte, etwa die Landung von Menschen auf dem Mond, gehört die Entschlüsselung des menschlichen Genoms zu den großen technisch-wissenschaftlichen Leistungen des 20. Jahrhunderts. Sie wäre undenkbar ohne den Beitrag der Informatik. Sie ermöglichte zum einen die Verarbeitung und Speicherung der riesigen Datenmengen, zum anderen stellte sie mathematische Verfahren zur Datenanalyse bereit. Aus der Zusammenarbeit von Biologie und Computerwissenschaft entstand ein neues Fachgebiet: die Bioinformatik. Die US-amerikanische Biophysikerin Margaret Dayhoff begründete mit anderen dieses bedeutende Fach. Ihr 1965 erstmals erschienener „Atlas of Protein Sequence and Structure“ (zusammen mit Richard Eck, Marie Chang und Minnie Sochard) erfasste alle bis dahin bekannten Proteinsequenzen (damals 65). David Lipman, bis 2017 Leiter des „National Center for Biotechnology Information“, nannte Dayhoff „Mutter und Vater der Bioinformatik“. Die Methoden, die sie für den Umgang mit Daten entwickelte, wurden in den folgenden Jahrzehnten unentbehrliche Werkzeuge bei der Erforschung von Proteinen (Proteomik) und des Genoms (Genomik).

Margaret Dayhoff wurde 1925 als einziges Kind von Kenneth Oakley und Ruth Clark in Philadelphia geboren. 1935 zog die Familie nach New York, wo Margaret die Schule besuchte. Die Highschool schloss sie als Jahrgangsbeste ab. Danach erhielt sie ein Stipendium am Washington Square College der New York University. 1945 schloss sie ihr Mathematikstudium „magna cum laude“ (mit großem Lob) ab und wurde in die „Phi Beta Kappa Society“ aufgenommen, eine 1776 gegründete Gesellschaft, die Bildung, Gemeinschaft, Forschungsfreiheit und kreative Tätigkeit fördert und ehrt. Dayhoff begann bei George Kimball am Department of Chemistry der Columbia Universität eine Doktorarbeit, drei Jahre später erhielt sie ihren Ph. D. (Doktortitel) in Quantenchemie. In ihrer Arbeit beschäftigte sie sich mit der Nutzung von Computern bei der Verarbeitung großer Datenmengen in der theoretischen Chemie. Konkret entwickelte sie eine Methode, mit Lochkarten-Büromaschinen (Vorläufer von Computern) die Resonanzenergien polyzyklischer organischer Moleküle zu berechnen. Ihr Umgang mit den Daten war so beeindruckend, dass sie mit einem Stipendium in der Zentrale der IBM-(International Business Machines-)Forschung ausgezeichnet wurde. Damit hatte sie Ende der 1940er-Jahre Zugang zu den neuesten Entwicklungen auf dem Gebiet der Datenverarbeitung.

Nutzung von Großrechnern

1948 heiratete sie den Physiker Edward Dayhoff und bekam mit ihm zwei Töchter. Judith promovierte in Biophysik und schrieb ein Buch über die Architektur neuronaler Netzwerke. Ruth studierte Medizin, promovierte in Mathematik und konzentrierte sich auf Medizininformatik. Gemeinsam mit ihrer Mutter schrieb sie ein Kapitel im „Atlas of Protein Sequence and Structure“ und ist eine Pionierin auf dem Gebiet der digitalen Bildgebung.

Nach ihrer Promotion studierte Dayhoff Elektrochemie an der Rockefeller University. 1952 zog die Familie nach Maryland, wo Dayhoff weitere Forschungsstipendien erhielt. Hier kam sie zum ersten Mal mit einem wissenschaftlichen Großrechner in Berührung, dem IBM 7094. 1960 wurde sie stellvertretende Direktorin der National Biomedical Research Foundation (NBRF), eine Non-Profit-Organisation zur Förderung der Nutzung von Computern und elektronischen Geräten in der biomedizinischen Forschung. Das Amt hatte sie bis 1981 inne. Robert Ledley (1926–2012) hatte die Foundation 1960 gegründet, die beiden kannten sich seit der Kindheit. Ledley träumte bereits als Teenager davon, Mathematik und (andere) Wissenschaften zu verbinden, doch um seine Eltern zufrieden zu stellen und Geld zu verdienen, folgte er der Familientradition und studierte Zahnmedizin. Nachts belegte er Kurse in Mathematik und Physik. Er verfasste eine der ersten Studien über den Einsatz von Computern in Biologie und Medizin. 1962 publizierten Dayhoff und Ledley „COMPROTEIN: A computer program to aid primary protein structure determination“, ein vollständiges Computerprogramm für den IBM-Rechner 7090.

Entwicklung des Sequenzalignments

Das Informationsarchiv eines Lebewesens, das heißt der Bauplan seiner Entwicklung und Aktivität, ist das genetische Material, die DNA oder – bei manchen Viren – RNA. DNA- und RNA-Moleküle sind lange Ketten, die die Information in einem Alphabet aus vier Buchstaben enthalten (die vier Nukleinbasen Adenin, Guanin, Cytosin, Thymin). In der RNA findet sich anstelle von Thymin Uracil. Auch Proteine sind lange Kettenmoleküle. Der genetische Code ist eine Chiffre: Aufeinanderfolgende Buchstaben-Dreiergruppen legen die aufeinanderfolgenden Aminosäuren fest, 20 kommen natürlicherweise in Proteinen vor. In einem DNA-Abschnitt ist also die Aminosäuresequenz eines Proteins chiffriert. Ein typisches Protein ist 200 bis 400 Aminosäuren lang, seine Kodierung erfordert demnach 600 bis 1.200 Buchstaben der DNA-Information. Während die DNA einheitlich gebaut ist, weisen Proteine vielfältige räumliche Konformationen auf. Nur so können sie ihre unterschiedlichen Struktur- und Funktionsaufgaben erfüllen, zum Beispiel als Haare, Muskeln, Verdauungsenzyme, Rezeptoren und Antikörper. Dabei legt die Aminosäuresequenz die dreidimensionale Struktur eines Proteins fest, das heißt zu jeder natürlich vorkommenden Aminosäuresequenz gehört ein je eigener, nativer, stabiler Zustand, den das Molekül von selbst einnimmt. Nur in ihrer nativen, dreidimensionalen Struktur können Proteine ihre Aufgaben erfüllen. Ändern sich die Bedingungen, etwa durch Erhitzen, entfaltet ein Protein sich und ist biologisch nicht mehr aktiv. Die Prinzipien lauten also:

1) Die DNA-Sequenz bestimmt die Proteinsequenz.
2) Die Proteinsequenz bestimmt die Proteinstruktur.
3) Die Proteinstruktur bestimmt die Proteinfunktion.

Die Bioinformatik beschäftigt sich größtenteils mit der Analyse der Daten, die mit diesen drei Prinzipien zu tun haben.

Hat man zwei oder mehr Sequenzen vorliegen, möchte man ihre Ähnlichkeit quantitativ erfassen, Entsprechungen zwischen einzelnen Bausteinen der Sequenzen identifizieren und auf etwaige evolutionäre Verwandtschaftsverhältnisse schließen. 1966 entwickelte Dayhoff dazu das „Sequenzalignment“ (engl. alignment: Abgleich). Es dient dem Nachweis solcher Entsprechungen zwischen Sequenzbausteinen und ist das grundlegende Werkzeug der Bioinformatik. Dazu ordnet man jedes Element einer Sequenz einem Element oder einer Leerstelle einer anderen Sequenz oder mehrerer anderer Sequenzen zu. Fehlpaarungen entsprechen Mutationen, Leerstellen werden als Gendeletionen (Verlust von DNA-Sequenzen) oder Insertionen (Einbau zusätzlicher DNA-Sequenzen) gedeutet. Dabei spricht man von Homologie, wenn die Sequenzen und die Lebewesen, in denen sie vorkommen, von einem gemeinsamen Vorfahren abstammen, wenn also beobachtbare Ähnlichkeiten auf einen genetischen Vorläufer zurückgeführt werden können. Um den Umfang der Daten möglichst gering zu halten, etablierte Dayhoff mit Richard Eck den Ein-Buchstaben-Code für Aminosäuren und untersuchte zahlreiche Verwandtschaften auf molekularer Ebene, etwa zwischen verschiedenen Apolipoproteinen. Der Ein-Buchstaben-Code wurde von der IUPAC (International Union of Pure and Applied Chemistry) beibehalten und wird allgemein verwendet. Entwickeln sich Sequenzen auseinander, sammeln sich Mutationen an. Mithilfe einer Substitutionsmatrix kann man die relative Wahrscheinlichkeit bestimmen, mit der im Lauf der Evolution eine Aminosäure in eine andere mutiert und in einem Protein von dieser substituiert wird. Dayhoff und ihre Mitarbeiter entwickelten ein Maß für Sequenzunterschiede, den PAM-Wert (1 Percent Accepted Mutation). Zwei Sequenzen, die einen Abstand von 1 PAM haben, sind also zu 99 Prozent identisch. Die 1-PAM-Substitutionsmatrix enthält statistische Angaben über derart eng verwandte Sequenzen. Will man eine Matrix für Sequenzen herstellen, die sich stärker voneinander unterscheiden, verwendet man Potenzen der 1-PAM-Substitutionsmatrix. Dabei entspricht eine Sequenzübereinstimmung von lediglich 20 Prozent einem PAM-Wert von 250.

Atlas of Protein Sequence and Structure

Dayhoffs größter Beitrag zur Bioinformatik ist zweifellos ihr „Atlas of Protein Sequence and Structure“. Im Vorwort schrieb sie: „Dieser Atlas veranschaulicht (...) den Triumph experimenteller Technik über die Verschlossenheit der Natur. Vielleicht konnte nirgends die Macht wissenschaftlicher Methodik überzeugender gezeigt werden als in der Entwicklung von Verfahren, mit denen man die Chemie des Lebens studieren kann.“ Der Atlas war zwar überaus erfolgreich, doch Wissenschaftler zögerten anfangs, ihre Sequenzierungen bei einer öffentlich zugänglichen Datenbank einzureichen (Bruno Strasser).

Dayhoffs Atlas erlebte seit 1965 zahlreiche Neuauflagen und mündete ab 1984 in die Protein-Information-Resource-Datenbank. Der Physiker Walter Goad (1925–2000) wandte sich in den 1960er-Jahren der Biologie zu und arbeitete maßgeblich an der Gründung der „GenBank“ mit. Die beiden bilden die Ursprünge moderner Datenbanken molekularer Sequenzen.

Dayhoffs wegweisende Beiträge zur Bioinformatik werden auch bei der Klassifikation und Namensgebung von Bakterien routinemäßig verwendet. In Anerkennung ihrer Verdienste wurde 2020 ein Bakterium nach ihr benannt: Enemella dayhoffiae, ein grampositives Stäbchen. Es gehört zur Familie der Propionibakterien und verfügt über 98 Nukleotide (Bausteine von DNA und RNA) und 6.974 Proteine.

Das Team um den Neurowissenschaftler Sebastian Seung präsentierte jetzt im Wissenschaftsjournal „Nature“ eine vollständige Karte sämtlicher Neurone des Gehirns der Fruchtwasserfliege inklusive aller Synapsen. Alexander Borst, Direktor am Max-Planck-Institut für Biologische Intelligenz, ordnete diesen „Meilenstein“ so ein: „Nur weil wir jetzt wissen, wie genau die Nervenzellen miteinander verbunden sind, verstehen wir nicht automatisch, wie zum Beispiel psychische Krankheiten (…) funktionieren. Das ist im Grunde ähnlich wie mit dem Genom. Man kann heute mit recht wenig Aufwand alle Erbinformationen eines Menschen auslesen, aber versteht viele Erbkrankheiten noch immer nicht.“

Literatur (Auswahl)

1. Dayhoff MO, Eck RV, Chang MA, Sochard MR: Atlas of Protein Sequence and Structure. Silver Spring: The National Biomedical Research Foundation 1965.
2. Lesk AM: Bioinformatik. Eine Einführung. Heidelberg: Spektrum Akademischer Verlag GmbH 2003.
3. November J: Biomedical computing. Digitizing Life in the United States. Baltimore: The Johns Hopkins University Press 2012.
4. Strasser BJ: Dayhoff, Margaret Oakley. Encyclopedia of Life Sciences 17.9.2012.

Entnommen aus MT im Dialog 1/2025

Artikel teilen