Springe zum Hauptinhalt

15.06.2022: Zur Datenanalyse von Interaktionen zwischen DNA und Proteinen können Wissenschafter:innen aus einer breiten Palette an Software wählen. Welche Software für welches Forschungsziel am besten geeignet ist – das war bisher schwer herauszufinden bzw. unklar. Ein Forschungs-Duo der Vetmeduni hat nun eine wissenschaftliche Entscheidungshilfe entwickelt, die das ändert und verbesserte Forschungsergebnisse bringen wird.

Mit der DNA einer Zelle kann eine Vielzahl von Proteinen interagieren. Um herauszufinden, wo in der DNA diese Interaktionen stattfinden, sind sogenannte ChIP-seq Experimente eine etablierte wissenschaftliche Technik. Konkret untersucht die biochemische Methode der ChIP-Seq (Chromatin Immunoprecipitation and DNA-Sequencing) über das gesamte Genom hinweg, wo und wie stark ein gewisses Protein mit der DNA einer Zelle interagiert.

Will man nun herausfinden, ob sich die Stärke oder der Ort von Protein-DNA Interaktionen ändern, vergleichen die Wissenschafter:innen typischerweise zwei ChIP-seq Experimente, zum Beispiel zwischen einer Kontrolle und nach einer experimentellen Behandlung. Um die Daten aus diesem Vergleich auszuwerten, steht eine Vielzahl an Software-Werkzeugen zur Verfügung. Für optimale Ergebnisse müssen aber die Art der Interaktion und auch die Einflüsse beziehungsweise die Art des Experiments berücksichtigt werden. Kurz gesagt: Es ist bis dato nicht leicht, die richtige Software zu finden.

Erstmalige repräsentative Evaluation von ChIP-seq-Tools

Um Wissenschafter:innen zu helfen, die am besten geeignete Software auszuwählen, hat nun ein Wissenschaftler-Duo der Vetmeduni die häufigsten Interaktionsarten und Experimente simuliert und mit echten ChIP-seq-Daten kombiniert. Damit konnten sie die Genauigkeit der digitalen Untersuchungswerkzeuge je nach Interaktion und Experiment ermitteln.

Praktische Entscheidungshilfe für bessere Forschungsergebnisse

Basierend darauf reihten die beiden Wissenschafter alle untersuchten Tools und listeten die besten je nach Art der Protein-DNA-Interaktion und dem experimentellen Einfluss. „Damit können Wissenschafter:innen nun leichter die optimale Software für das gewünschte Experiment ermitteln. Mit dieser Entscheidungshilfe helfen wir, aus vergleichenden ChIP-seq-Experimenten die besten Ergebnisse zu erzielen“, erklärt Studien-Erstautor Thomas Eder vom Institut für Biochemie der Vetmeduni.

Entscheidungsbäume mit Bewertungs-Score

Insgesamt evaluierten die Wissenschafter im Rahmen ihrer Studie 23.220 Vergleiche von 33 verschiedenen Software-Werkzeugen. Allerdings ließ sich kein einziges Tool identifizieren, das über alle Szenarien hinweg eine überlegene Leistung zeigte. Umso wichtiger ist deshalb der von den Wissenschaftern entwickelte Bewertungs-Score. Das betont Studien-Letztautor Florian Grebien, Leiter des Instituts für Medizinische Biochemie der Vetmeduni: „Die von uns auf Grundlage des Bewertungs-Score der einzelnen Software-Werkzeuge entwickelten Entscheidungsbäume dienen Biomediziner:innen, Biolog:innen und Bioinformatiker:innen in Zukunft gleichermaßen als Orientierungshilfe und hilfreiches Werkzeug.“
 

Der Artikel „Comprehensive assessment of differential ChIP‑seq tools guides optimal algorithm selection“ von Thomas Eder und Florian Grebien wurde in „Genome Biology“ veröffentlicht.

Zur wissenschaftlichen Publikation

Abb. 1: Die getesteten Interaktionsarten und Einflüsse des Experiments (TF: Transkriptionsfaktoren, Sharp und Broad mark: schmale und breite Histon-modifikationen, 50:50: unterschiedlich egulierte Bereiche in beiden Datensätzen und 100:0: globale Regulierung in einem Datensatz).

Abb. 2: Liste der getesteten Software-tools (Peak dependent: Peak abhängig für diese Tools werden davor Peak-caller benötigt um die Interaktionsregionen zu identifizieren, Peak independet: Peak unabhängig).

Abb. 3: Vereinfachte Übersicht über die Schritte von der Datengenerierung bis zu der Evaluierung. Daten -generierung durch Simulation und mit Hilfe von realen ChIPseq Daten. Qualitätskontrolle und Alignierung gegen das Referenzgenom. Falls nötig Identifizierung der Peaks (peak-calling) und dann Anwendung der Tools. Evaluierung durch Berechnung der Precision (Pr) und des Recalls (Re) und der sich daraus ergebenden Fläche unter der Kurve (AUPRC).

Abb. 4: Übersicht über alle Software-Tools (sortiert nach DCS-score) und die einzelnen Evaluierungskriterien die als DSC-score zusammengefasst wurden.

Abb. 5: Entscheidungsbaum der basierend auf den Datencharakteristiken zu den optimalen Tools zur Auswertung führt.