Bessere Analyse von Virengenomen angestrebt

Prof. Dr. Alexander Schönhuth befasst sich an der Technischen Fakultät der Universität Bielefeld mit datenwissenschaftlichen Methoden für die Analyse von Virenerbgut und anderen Genomen. Foto: Universität Bielefeld/S. Jonek

Um Virenstämme miteinander vergleichen zu können, ist eine exakte Darstellung des Genoms entscheidend. Forscher stellen nun einen Ansatz zur Rekonstruktion von Gensequenzen vor, um Ablesefehler frühzeitig zu erkennen und zu korrigieren.

Oft unterscheiden sich Varianten von SARS-CoV-2 nur in winzigen Details. Deshalb ist eine möglichst exakte Darstellung des Genoms wichtig, um Virenstämme miteinander vergleichen zu können. Bei herkömmlichen Methoden treten allerdings häufig Ablesefehler auf, die das Ergebnis verfälschen können. Dieses Problem wollen der Bioinformatiker Professor Dr. Alexander Schönhuth von der Universität Bielefeld und sein Team mit ihrem neuen Verfahren lösen. Die Methode Strainline ermöglicht es, Sequenzen von Virengenomen auf neue Weise zu rekonstruieren. Unter anderem werden Ablesefehler frühzeitig erkannt und korrigiert.

Phasebook mit ähnlichem Ansatz

Als weitere Methode mit ähnlichem Ansatz hilft Phasebook darüber hinaus dabei, auch menschliche Chromosomensätze besser analysieren zu können. Studien zu den beiden Verfahren haben die Forscher nun veröffentlicht. Wie lassen sich neue Virenstämme von SARS-CoV-2 frühzeitig erkennen? Eine Möglichkeit ist es, das Abwasser einer Stadt zu untersuchen, in dem Coronaviren ihre Spuren hinterlassen. Kurz gesagt wird dazu die Viren-RNA in kleine Stücke zerschnitten und analysiert. Aus diesen Stücken werden anschließend die Genome der Viren rekonstruiert – bislang allerdings mit einer recht hohen Fehlerrate. Solche genetischen Analysen werden in der Regel mit sogenannten Nanopore-Sequenziergeräten durchgeführt. Der Vorteil: Sie sind günstig und handlich – und können lange Gensequenzen ausgeben. „Eine Sequenz kann bis zu 10.000 Basen umfassen“, sagt Professor Dr. Alexander Schönhuth von der Technischen Fakultät und dem Institut für Bioinformatik-Infrastruktur (BIBI) der Universität Bielefeld. Das Genom von SARS-CoV-2 besteht aus etwa 30.000 Basen – entsprechend entstehen durch die Sequenzierung nur wenige Teile, die aber viele Informationen umfassen.

Fehlerrate beträgt bis zu zehn Prozent

„Das Problem ist, dass die Methode sehr fehleranfällig ist“, sagt Schönhuth, Erstautor der Studie. Um etwa neue Varianten zu erkennen, kommt es auf Details an – und die stimmen nicht immer: Vereinfacht gesagt kann es zum Beispiel passieren, dass Basen bei der Analyse verzögert und dadurch doppelt abgelesen werden. „Die Fehlerrate beträgt bis zu zehn Prozent.“ Das sei viel, wenn es auf winzige Unterschiede ankommt.

Arbeit wie bei einem Puzzle

Für eine Analyse müssen die Teile deshalb nicht nur wieder zusammengesetzt, sondern auch korrigiert werden. Für Forscher ist die Arbeit mit den Gensequenzen der Viren-Varianten wie das Lösen eines Puzzles: „Wir haben viele große Teile, aber wir wissen gar nicht, wie viele Puzzles es eigentlich gibt“, sagt Alexander Schönhuth. Das liege daran, dass nicht klar sei, wie viele Varianten von SARS-CoV-2 das Material überhaupt enthält. „Manche Teile sind zudem verschwommen oder haben Fehler im Bild.“

Verbindungen zwischen Genomen als Knotenpunkte

Die Methode Strainline korrigiert solche Fehler frühzeitig. Schönhuth hat sie gemeinsam mit den Doktoranden Xiao Luo und Xiongbin Kang aus seiner Arbeitsgruppe Genominformatik entwickelt. Zugrunde liegt der Methode die Idee, die Genome nicht als Buchstabenketten, sondern in Form einer grafischen Anwendung darzustellen, die Verbindungen zwischen Genomen als Knotenpunkte zeigt und auch Auffälligkeiten schnell herausfiltert.

Phasebook für diploide Chromosomensätze

Auf ähnliche Weise funktioniert auch die Methode Phasebook, die das Forschungsteam ebenfalls entwickelt hat. Sie eignet sich für sogenannte diploide Chromosomensätze, bei denen in den Zellen jedes Chromosom doppelt vorhanden ist. Menschen und auch andere Wirbeltiere besitzen einen solchen doppelten Chromosomensatz, bei dem je ein Teil von der Mutter und ein Teil vom Vater stammt.

„Um im Bild zu bleiben: Wir haben hier einen großen Karton mit sehr vielen Puzzleteilen“, sagt Schönhuth. „Wir wissen, dass sich daraus zwei Puzzles ergeben, aber wir wissen nicht, welches Teil zu welchem Puzzle gehört, weil wir keine Abbildung haben, die uns das zeigen würde.“ Die Teile genau zuordnen zu können, ist aber entscheidend – etwa für die Funktionelle Genomik, die Präzisionsmedizin und viele andere Disziplinen.

Rekonstruktion ohne Referenzgenom

Ähnlich wie Strainline setze Phasebook darauf, Analysefehler in langen Sequenzen schon frühzeitig zu erkennen und zu korrigieren. Außerdem ermögliche die Methode durch einen Algorithmus eine bessere Zuordnung der Teile. „Viele andere Methoden verwenden stattdessen ein sogenanntes Referenzgenom“, sagt Schönhuth. „Dieses stammt aber von einem Europäer und funktioniert nicht so gut, wenn man beispielsweise das Genom von Menschen in Afrika oder Südamerika analysieren möchte.“ Mit Phasebook lässt sich laut Schönhuth auch ohne ein solches Referenzgenom rekonstruieren, welcher Teil der genetischen Ausstattung von der Seite der Mutter und welche von der Seite des Vaters stammt.

Strainline und Phasebook sind Open-Source

Strainline und Phasebook sind als Open-Source-Anwendungen konzipiert. Dadurch haben Forscher und Interessierte kostenlosen Zugriff auf die Software. Beide Methoden sind in Zusammenhang mit dem von der EU geförderten Promotionsnetzwerk Alpaca zur Pangenomik und dem ebenfalls von der EU geförderten Verbundprojekt Pangaia entstanden. Pangaia hat das Ziel, eine computergestützte Analyse großer Datensätzen zur Genomanalyse zu entwickeln. Sowohl das Promotionsnetzwerk wie auch das Verbundprojekt werden von der Universität Bielefeld geleitet. Schönhuth ist Koordinator von Alpaca und ist mit seiner Arbeitsgruppe Genominformatik an Pangaia beteiligt.

Literatur:
Xiao Luo, Xiongbin Kang, Alexander Schönhuth: Strainline: full-length de novo viral haplo-type reconstruction from noisy long reads, Genome Biology, DOI: doi.org/10.1186/s13059-021-02587-6 online erschienen am 20. Januar 2022.

Xiao Luo, Xiongbin Kang, Alexander Schönhuth: phasebook: haplotype-aware de novo assembly of diploid genomes from long reads. Genome Biology, DOI: doi.org/10.1186/s13059-021-02512-x, online erschienen am 27. Oktober 2021.

Quelle: idw/Universität Bielefeld

Artikel teilen