|
Das Dokument ist frei verfügbar. |
|
| Nachweis | Kein Nachweis verfügbar |
|
Bioinformatik; maschinelles Lernen; Phylogenetic Footprinting; Modellselektion; Transkriptionsfaktorbindestellen; de-novo Motivsuche; statistische Abhängigkeiten; Bindeaffinitätsbias; Visualisierung von Sequenzmotiven | |
bioinformatics; machine learning; phylogenetic footprinting; model selection; transcription factor binding sites; de-novo motif discovery; statistical dependencies; binding-affinity bias; Visualization of sequence motifs | |
In dieser Arbeit haben meine Kollegen und ich sechs Limitierungen in drei verwandten Themengebieten adressiert. Im ersten Themengebiet der Datenakquisition und Datenvorbereitung haben wir die Datenbank miRGen und den Key-Value store DRUMS entwickelt. Im zweiten Themengebiet haben wir drei Ansätze zur Verbesserung der de-novo Motivsuche mit Phylogenetic Footprinting untersucht. Wir konnten zeigen dass es unter Verwendung von speziesübergreifenden Informationen möglich ist den Bindeaffinitätsbias in ChIP-Seq Daten zu berücksichtigen. Des Weiteren haben wir entdeckt dass die Verwendung von unrealistischen phylogenetischen Bäumen beim Phylogenetic Footprinting zu einer robusteren Vorhersage von Sequenzmotiven führt. Schließlich haben wir ein traditionelles phylogenetisches Motivmodell um die Fähigkeit erweitert Nukleotidabhängigkeiten höherer Ordnung zu modellieren. Alle drei Ansätze führen zu einer verbesserten Vorhersage von Transkriptionsfaktorbindestellen. Im dritten Themengebiet der Visualisierung von Sequenzmotiven haben wir DiffLogo entwickelt ein frei verfügbares R-Paket spezialisiert auf die vergleichende Visualisierung von Sequenzmotiven. Jede dieser Arbeiten trägt dazu bei unser Verständnis der Genregulation als Ganzen zu verbessern. | |
In this thesis my colleagues and I have addressed six limitations in three related fields. First we proposed miRGen and DRUMS two approaches to improve „data acquisition and data preparation.“ Second we proposed three approaches to improve „de-novo motif discovery using phylogenetic footprinting.“ Specifically we studied the detection and correction of the binding affinity bias in ChIP-Seq data using inter-species information. Further we studied unrealistic phylogenetic trees for more robust de-novo motif predictions with phylogenetic footprinting. Finally we extended phylogenetic motif models by taking into account intra-motif dependencies. We found that all three approaches lead to an improved prediction of transcription factor binding sites. Third we proposed DiffLogo to improve the „visualization of sequence motifs.“ DiffLogo is a freely available R package for the comparative visualization of sequence motifs. Each of these studies potentially advance our attempt of understanding transcriptional gene regulation as a whole. |
|
|