Das menschliche Erbgut besteht aus insgesamt drei Milliarden Buchstaben, verteilt auf 46 Chromosomen. Dabei sind die Unterschiede von Mensch zu Mensch insgesamt sehr gering, nur in einem von 1.000 Buchstaben weicht die Reihenfolge der Bausteine zwischen zwei Menschen ab. Dabei sind manchmal nur einzelne Buchstaben ausgetauscht, gelegentlich aber auch längere Abschnitte verändert. „Viele dieser Unterschiede fallen im Alltag gar nicht auf, weil sie die Struktur der Eiweiße, die im Erbgut verschlüsselt sind, nicht beeinflussen und daher keine Krankheiten hervorrufen“, erläutert Birte Kehr, Leiterin einer Nachwuchsgruppe am Berlin Institute of Health (BIH) und seit Kurzem Professorin am Regensburger Centrum für Interventionelle Immunologie (RCI). Die Bioinformatikerin beschäftigt sich mit den so genannten Strukturvarianten im Erbgut, bei denen größere Abschnitte fehlen, verdoppelt sind oder gar an anderer Stelle wieder auftauchen.
Große Strukturveränderungen schwieriger zu entdecken
„Die großen Strukturveränderungen sind viel seltener als der Austausch einzelner Buchstaben“, erklärt Birte Kehr, „aber sie haben oft größere Auswirkungen und sind auch schwieriger zu entdecken.“ Um mehr über diese großen Veränderungen zu lernen, sei es hilfreich, in großen Datenbanken danach zu forschen. Da bot sich die Zusammenarbeit mit der isländischen Firma deCODE Genetics an, die insgesamt 50.000 menschliche Erbgutsequenzen in ihrer Datenbank bereithält, und bei der Birte Kehr als Postdoc beschäftigt war. „Wir hatten immer vor, die großen Datenbanken nach Deletionen zu durchforsten, doch uns fehlte ein Programm, das in der Lage war, zuverlässig und schnell diese riesigen Datenmengen zu verarbeiten.“ Als Birte Kehr nach Berlin ans BIH wechselte, übertrug sie diese Aufgabe ihrem ersten Doktoranden, Sebastian Niehus. Das Berlin Institute of Health (BIH) und das Regensburger Centrum für Interventionelle Immunologie arbeiteten dazu in Kooperation mit isländischen Kollegen zusammen.
Neues Programm war nötig
Die Programme, die bisher verfügbar waren, um Strukturvarianten wie Deletionen zu erfassen, konnten nur Daten von wenigen Personen gleichzeitig verarbeiten. Die Ergebnisse mussten dann für größere Datenmengen, wie etwa die der deCODE Genomdatenbank, umständlich und fehleranfällig wieder zusammengefügt werden. „Wir wollten also zunächst ein statistisches Modell entwickeln, mit dem es möglich ist, die Informationen aller Sequenzdaten gleichzeitig auszuwerten“, berichtet Sebastian Niehus. „Dazu musste das Programm so gestaltet sein, dass ein Computer in der Lage ist, es auf riesigen Datenmengen schnell zu berechnen. Außerdem mussten wir die Dateien auf 1-2 % ihrer ursprünglichen Größe komprimieren, um überhaupt mit ihnen arbeiten zu können.“
PopDel: Zuverlässig, schnell und ressourcenschonend
Nachdem ein Prototyp entwickelt war, musste sich das Programm PopDel in verschiedenen Szenarien gegenüber anderen Programmen bewähren. Dazu gehörten simulierte Sequenzdaten von bis zu 1.000 „Personen“, Sequenzdaten von 49 Eltern-Kind Trios, mit deren Hilfe es möglich war zu prüfen, ob die Vererbungsmuster korrekt rekonstruiert werden, Sequenzdaten von 150 Personen unterschiedlicher Ethnien, die es ermöglichten, auf Populationsstrukturen zu prüfen, und schließlich die rund 50.000 Genome des Kooperationspartners deCODE Genetics in Island.
„Dabei konnten wir zeigen, dass PopDel sowohl mit den Daten einzelner Menschen als auch mit den Daten der größten Kohorten zuverlässig, schnell und ressourcenschonend gute Ergebnisse produzierte“, berichtet Niehus stolz. Und Birte Kehr ergänzt: „PopDel war in der Lage, die Genome von 150 Personen innerhalb von zwei Tagen zu analysieren, wofür andere Programme vier Wochen benötigt hatten. Und die Ergebnisse von PopDel waren besser.“
Seltene Genvariante in Island entdeckt
Höhepunkt der Forscher/-innen war die Entdeckung einer seltenen, bisher unbekannten Genvariante in nur einer einzigen Familie der insgesamt 50.000 analysierten Isländer. „Das Gen für den LDL-Rezeptor zeigte bei diesen Familienmitgliedern eine größere Deletion, also eine Lücke. Das war gekoppelt mit einem sehr niedrigen Cholesterinspiegel bei diesen Personen.“ Kehrs Kooperationspartner bei deCODE Genetics konnten mittlerweile zeigen, dass die Veränderung im LDL-Rezeptorgen tatsächlich verantwortlich ist für den niedrigen Cholesterinspiegel der betroffenen Personen. „Eine betroffene Person ist im Alter von 85 Jahren verstorben, sechs weitere Betroffene im Alter von 35 bis 65 Jahren sind aufgrund ihres niedrigen Cholesterin-Spiegels allesamt sehr gesund“, so die Wissenschaftlerin. „Die Ergebnisse sind deshalb auch medizinisch sehr interessant, weil wir offenbar eine genetische Variante entdeckt haben, die zu einem gesunden Fettstoffwechsel beiträgt.“
Programm soll weiterentwickelt werden
Im nächsten Schritt möchten die Forscher/-innen nun das Programm weiterentwickeln. Dazu arbeiten sie selbst weiter daran, haben aber auch den Quellcode von PopDel auf einen offenen Server gestellt, damit ihn jeder einsehen, nutzen und verbessern kann. „Bisher kann PopDel nur verloren gegangene DNA-Abschnitte entdecken, aber es gibt auch Genvarianten, bei denen Abschnitte dupliziert, umgedreht oder verschoben wurden. Alle diese möchten wir nun auch mit PopDel finden“, blickt Sebastian Niehus in die Zukunft. Und Birte Kehr hofft, „dass wir langfristig aus den Erkenntnissen neue Behandlungsansätze und Therapien entwickeln können.“
Der Source Code von PopDel ist verfügbar bei github.com/kehrlab/PopDel (v1.2.2, GNU GPLv3 license, https://zenodo.org/record/4282041). Scripts, die für die Evaluation von PopDel verwendet wurden, sind erhältlich bei github.com/kehrlab/PopDel-scripts.
Niehus S, Jónsson H, Schönberger J, et al.: PopDel identifies medium-size deletions simultaneously in tens of thousands of genomes. Nat Commun 12, 730 (2021), DOI: doi.org/10.1038/s41467-020-20850-5.
Quelle: BIH
Artikel teilen