Doctoral thesis (Dissertations and theses)
From Statistical to Biological Interactions via Omics Integration
Bessonov, Kyrylo
2016
 

Files


Full Text
PhD_thesis_integromics_v4_annotated_final_11Oct2016.pdf
Publisher postprint (9.38 MB)
Download
Annexes
thesis_online_supplimentraty_kb.zip
Publisher postprint (7.55 MB)
online thesis supplementary (figures, tables)
Download
Thesis_public_talk_4th_July_KB_FINAL.pdf
Publisher postprint (3.9 MB)
thesis defense slides
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
Genome-wide association interaction (GWAI); gene regulatory networks; conditional inference forest; epistasis; ankylosing spondylitis; cis-regulation; trans-regulation; expression quantitative trait loci; integration; multiomics
Abstract :
[en] The XXI century opened a new ‘Big Data’ era in which, thanks to rapid technological advancements and appearance of high throughput technologies, vast amounts of unstructured omics data (e.g., transcriptomic, genomic, etc.) are generated every day. This thesis mainly focuses on solving the problems related diverse omics data integration and interaction identification tasks. Particular attention is given to useful knowledge extraction in the context of complex diseases including pathological mechanisms with the development of software tools and pipelines. The diseases covered included glioblastoma multiforme, asthma, and ankylosing spondylitis. Interactions detection in genomic data requires standardization of the protocols. In Chapter 3, we tested the impact of different settings in a genome-wide association interaction study (GWAIS). Some of the settings included marker selection strategy, the LD pruning, lower order effects adjustment, analytical tool. We were able to show that even small changes in each setting can have drastic impacts requiring careful assessment of proper settings and results comparisons across several analysis protocols. The greatest impact was attributed to the input dataset composition highlighting the importance of the marker selection strategy and use of prior knowledge. Expression of genes can be affected by nearby (‘cis’) or distant (‘trans’) genotypes. Thus, we developed methodology to identify complex trans/cis regulatory mechanisms between expression and genotype data in the context of asthma (CAMP data). Significant overlap between ‘trans’ and ‘cis’ gene regulatory components related to immune and signaling pathways was clearly identified matching asthma disease pathology. The semi-parametric Model-Based Multifactor Dimensionality Reduction (MB-MDR) method was applied for the first time in the context eQTL study achieving low false discovery and family-wise error rates (FDR and FWER). Identification of a meaningful data structure from omics data is a pressing topic nowadays. Gene regulatory networks (GRN) conveniently summarize large amounts of data allowing for useful knowledge generation. GRN inference is especially attractive for deciphering of complex diseases mechanisms allowing biologists to formulate a better hypothesis. We were able to generate GRNs from a single source (e.g., microarray expression data) using conditional inference forest (CIF) with more attractive features compared to classical Random-Forest (RF) including unbiased node variable selection even in the context of highly correlated variables particularly relevant in transcriptomics. The CIF methods provided attractive features and performance characteristics coupled to valuable pathological insights into type 1 diabetes.
[fr] Le XXIe siècle a ouvert une nouvelle ère du «Big Data». Grâce aux progrès rapides et à l’apparition des technologies à haut débit, de vastes quantités de données omiques non structurées (par exemple transcriptome, génomique, etc.) sont générées chaque jour. Cette thèse s’axe principalement sur la résolution des problèmes liés à l'identification des interactions et l'intégration de divers données omiques. Une attention particulière a été accordée à l'extraction de connaissances «utiles» dans le contexte des maladies complexes, y compris les mécanismes pathologiques, ainsi qu’au développement de logiciels et de pipelines. Les maladies couvertes incluent le glioblastome multiforme, l'asthme et la spondylarthrite ankylosante. La détection des interactions dans les données génomiques exige la standardisation du protocole. Nous avons testé l'impact des différents paramètres sur la composition des résultats finaux dans une étude d'interaction association pangénomique (GWAIS) sur l'ensemble du génome. Certains des paramètres en questions sont la sélection de la stratégie des marqueurs de sélection, le déséquilibre de liaison (LD), le faible ajustement des effets principaux et l’outil d'analyse choisi. Nous avons pu montrer que chaque paramètre pourrait avoir des effets drastiques qui nécessitent une évaluation attentive des paramètres appropriés et d’analyse comparative des résultats entre plusieurs pistes. Le plus grand impact a été attribué à la composition de l'ensemble de données lié à la stratégie de sélection des marqueurs et à l’utilisation de connaissance préalable. L'expression des gènes pourrait être affectée par génotypes à proximité (‘cis’) ou à distance (‘trans’). Ainsi, nous avons cherché à identifier des mécanismes mixtes trans/cis existants entre les données d'expression et de génotypes dans le contexte de l'asthme (données CAMP). Un chevauchement important existe entre les composants de régulation ‘trans’ et ‘cis’ liés au système immunitaire et à la signalisation correspondant à la pathologie de la maladie de l'asthme. La méthode semi-paramétrique Model-Based Multifactorielle Dimensionnalité Réduction (MB-MDR) a été appliqué pour la première fois dans l'étude eQTL, ce qui a permis d’atteindre un taux de faux positifs bas. La recherche d'une structure de données significatives à partir de plusieurs sources hétérogènes de données omiques est un sujet de recherche important à l’heure actuelle. Les réseaux de régulation des gènes (GRN) résument facilement de grandes quantités de données permettant la production de connaissances utiles. L’inférence GRN est particulièrement attrayante pour déchiffrer des mécanismes de maladies complexes permettant aux biologistes de formuler des hypothèses plus exactes. Nous avons été en mesure de produire un GRN à partir d'une seule source (par exemple, les données de biopuces d’expression) en utilisant des forêts d’inférence conditionnelle (CIF) avec des caractéristiques plus attrayantes par rapport à des forêts aléatoires classiques (Random Forests). Les avantages comprennent l’impartialité de sélection de variables liées à un noeud, l’impartialité même dans le contexte de variables corrélées particulièrement pertinente pour les donnes transcriptomique. Les CIF méthodes possèdent des caractéristiques attrayantes et conduisent à de bonnes performances. Ces méthodes fournissent des idées sur les mécanismes pathologiques du le diabète de type 1.
Disciplines :
Engineering, computing & technology: Multidisciplinary, general & others
Author, co-author :
Bessonov, Kyrylo ;  Université de Liège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Bioinformatique
Language :
English
Title :
From Statistical to Biological Interactions via Omics Integration
Defense date :
04 July 2016
Institution :
ULiège - Université de Liège
Degree :
Docteur en Sciences Appliquées
Promotor :
Van Steen, Kristel  ;  Université de Liège - ULiège > GIGA > GIGA Medical Genomics - Biostatistics, biomedicine and bioinformatics
President :
Geurts, Pierre ;  Université de Liège - ULiège > Montefiore Institute of Electrical Engineering and Computer Science
Jury member :
Meyer, Patrick ;  Université de Liège - ULiège > Integrative Biological Sciences (InBioS)
BOURS, Vincent ;  Centre Hospitalier Universitaire de Liège - CHU > Service de génétique
STOLL, Monika
Schwikowski, Benno
Funders :
F.R.S.-FNRS - Fonds de la Recherche Scientifique [BE]
Available on ORBi :
since 05 July 2016

Statistics


Number of views
257 (49 by ULiège)
Number of downloads
499 (20 by ULiège)

Bibliography


Similar publications



Contact ORBi