Im Archiv der Gene
2026/03/19 von Heike Jüngst
Milliarden DNA-Datensätze lagern heute in öffentlichen Archiven. In ihnen stecken womöglich neue Enzyme für Medikamente, Waschmittel, Lebensmittel, Biokraftstoffe oder klimafreundlichere Produktionsprozesse. Das Problem ist jedoch, dass die Daten zwar vorhanden sind, aber erst dann hilfreich sind, wenn jemand das Richtige in ihnen findet. Das Start-up P2P Bio aus dem Umfeld der TU Darmstadt hat deshalb eine Suchmaschine entwickelt.
In der modernen Biologie gibt es einen eigentümlichen Widerspruch: Noch nie konnte die Menschheit so schnell und so günstig Erbgut lesen. Und doch fällt es schwer, aus dieser Fülle das Brauchbare herauszufiltern.
Weltweit entstehen unablässig neue Sequenzdaten. Labore lesen die DNA von Bakterien, Pilzen, Pflanzen, Viren und Mikroorganismen aus Böden, Meeren, Kläranlagen oder heißen Quellen aus. Öffentliche Datenbanken füllen sich mit Abermilliarden Buchstabenfolgen: A, C, G, T – vier Zeichen, aus denen alles Leben geschrieben ist. Wer darin ein bestimmtes Protein sucht, ist oft wie jemand, der in einem Lager voller unsortierter Zettel nach einer bestimmten Information sucht.
Genau hier setzt P2P Bio an. Das am 20. November 2025 gegründete junge Unternehmen besteht aus zwei Co-Foundern, die sich aus dem Umfeld der TU Darmstadt kennen. Prof. Dr. Johannes Kabisch ist heute Professor für Synthetische Biologie an der norwegischen NTNU und Aron Eiermann ist Informatiker mit TU-Darmstadt-Hintergrund und, wie er selbst sagt, „Bioinformatiker im Herzen“. Gemeinsam bauen sie an einer Suchmaschine für Proteine und Enzyme – jedoch nicht für das Internet, sondern für Forschende und Biotech-Unternehmen. Ihre Plattform heißt „axíōma”. Sie soll ein sehr praktisches Problem lösen: die richtige Nadel im biologischen Heuhaufen finden.
Der Engpass
Was P2P Bio macht, lässt sich einfach erklären. In der Biotechnologie werden ständig neue Proteine und Enzyme benötigt: für Medikamente, Diagnostik, industrielle Prozesse, die Lebensmittelproduktion, Impfstoffe oder nachhaltigere Herstellungsverfahren.
Enzyme sind molekulare Maschinen. Sie beschleunigen Reaktionen, bauen Stoffe um und machen Prozesse effizienter. Viele Industrien suchen deshalb nach Molekülen, die mehr leisten als bisher bekannte, beispielsweise stabiler sind, bei höheren Temperaturen arbeiten, weniger Nebenprodukte erzeugen oder leichter herzustellen sind. Solche Kandidaten findet man heute nicht mehr nur im Labor. Sie stecken längst in riesigen öffentlichen Datensammlungen, die zwar theoretisch zugänglich sind, in der Praxis jedoch oft verborgen bleiben. „Das Problem, das wir lösen, ist, dass man in der Biotechnologie regelmäßig neue Proteinsequenzen für neue Produkte und Anwendungen finden muss“, sagt Johannes Kabisch. „Vereinfacht gesagt, haben wir eine Suchmaschine dafür geschrieben.“ Der Unterschied zu bisherigen Lösungen bestehe vor allem darin, „dass sie einfach eine sehr, sehr, sehr viel größere Datenmenge durchsucht“.
Das klingt technisch, ist aber wirtschaftlich relevant. Denn je länger die Suche dauert, desto teurer wird Innovation. Junge Unternehmen können nicht jahrelang im Labor auf gut Glück testen. Mittelständler haben oft keine eigene Bioinformatik-Abteilung. Und selbst akademische Arbeitsgruppen verfügen selten über die erforderliche Rechenleistung und das Personal, um Petabytes an Sequenzdaten sinnvoll zu durchforsten.
Kabisch kennt diese Lage aus der Forschung. Er arbeitet seit Jahren an mikrobiellen Zellfabriken, also der Idee, Mikroorganismen so zu nutzen oder umzubauen, dass sie wertvolle Stoffe produzieren. Medikamente, Feinchemikalien oder industrielle Vorprodukte. Wer in diesem Feld arbeitet, braucht immer wieder neue Bauteile des Lebens und stößt schnell an eine Grenze, die nicht biologisch, sondern informatisch ist. „Die Datenmenge ist sehr groß, also immens groß“, sagt Kabisch. „Sodass ein normaler Wissenschaftler zu Recht davon überfordert ist.“
Das Lesen
Um dies zu verstehen, lohnt sich ein Blick auf die Sequenzierung selbst. Man kann sich das Genom eines Lebewesens wie ein riesiges Buch vorstellen. In diesem Buch steht vereinfacht gesprochen, wie ein Organismus aufgebaut ist und wie er funktioniert.
Geschrieben ist es allerdings nicht in Wörtern und Sätzen, sondern in einer Sprache aus vier Buchstaben: A, C, G und T. A, C, G und T bezeichnen die Basen der DNA. Sequenzieren bedeutet, dieses Buch Buchstabe für Buchstabe zu lesen und in digitale Daten zu übersetzen.
Die Idee ist nicht neu. Die ersten Verfahren stammen aus den 1970er Jahren. Lange Zeit war das Sequenzieren mühsam, teuer und langsam. Ein großer Meilenstein war das Humangenomprojekt, das von 1990 bis 2003 lief: Erstmals wurde das gesamte menschliche Genom entschlüsselt – ein wissenschaftlicher Kraftakt, der 13 Jahre dauerte und Milliarden kostete. Heute ist die Lage grundlegend anders. Moderne Verfahren des sogenannten Next-Generation Sequencing lesen Millionen kleiner DNA-Fragmente parallel. Die Technik wurde miniaturisiert, ist schneller und günstiger geworden. Was früher ein Großprojekt war, ist heute in vielen Laboren Routine.
Sequenzierung macht das Unsichtbare sichtbar. In der Medizin lassen sich seltene Erbkrankheiten aufspüren, da im genetischen Code nach „Tippfehlern“ gesucht werden kann. In der Onkologie hilft sie dabei, Tumore genauer zu charakterisieren und Therapien besser auszuwählen. In der Infektionsbiologie lassen sich Krankheitserreger identifizieren, Varianten verfolgen und Ausbrüche analysieren.
Die Corona-Pandemie hat diesen Wandel besonders deutlich gemacht. Als in Wuhan die ersten Menschen an einer unbekannten Lungenkrankheit erkrankten, war zunächst unklar, was der Auslöser war. Die Sequenzierung des Erregers ergab jedoch schnell, dass es sich um ein neuartiges Coronavirus handelte. Später konnten Varianten wie Delta oder Omikron nur deshalb so schnell erkannt werden, weil Labore weltweit Virusproben sequenzierten und Veränderungen im Erbgut nachweisen konnten. Auch die Entwicklung der mRNA-Impfstoffe beruhte entscheidend darauf, dass nicht erst physische Proben um die Welt geschickt werden mussten, sondern die digitale Sequenz des Virus genügte, um am Computer mit der Entwicklung zu beginnen.
Die Sequenzierung hat die Biologie in eine datenbasierte Wissenschaft verwandelt. Sie produziert jedoch auch Datenmengen, die ohne neue Werkzeuge kaum beherrschbar sind. Die Biologie kann heute lesen. Das Verstehen bleibt jedoch der Engpass.