|
Das Dokument ist frei verfügbar. |
|
| Nachweis | Kein Nachweis verfügbar |
|
Text Mining; Life Science Applications; Topic Modeling; Density-based Clustering | |
Text ist eine der häufigsten Form von elektronischen Daten die für Menschen direkt lesbar ist. In dieser Arbeit wird untersucht ob und wie statistische Methoden zur Textanalyse auf Anwendungen aus den Lebenswissenschaften übertragen werden können. Die betrachteten Anwendungen sind zwei-dimensionale-NMR-Spektren Proteomics-Experimente und Protein-Precursor-Sequenzen die eine Funktion als Transit-Peptid für Mitochondrien haben. All diese verschiedenen Datensorten können sinnvoll in eine Repräsentation überführt werden die analog der Bag-of-Words-Repräsentation von Textdokumenten ist. Die verwendeten Text-Mining-Methoden sind Topic-Modeling und dessen Anwendungen auf Ähnlichkeitssuche Near-Duplicate-Detektion von Dokumenten mittels Locality-Sensitive-Hashing und Cluster-Analyse basierend auf fraktaler Dimension. Die Ergebnisse zeigen dass die Bag-of-Words-Repräsentation ebenso wie die genannten Text-Mining-Methoden sich erfolgreich in den ausgewählten Anwendungen übertragen und nutzbar machen lassen. |
|
|