Thème du mois : Bio-informatique
Sur la piste des génomes artificiels
Article paru dans CNRS le journal - 03 décembre 2021; Sebastián Escalón
" C’est une recherche qui n’est pas passée inaperçue : des scientifiques ont créé des génomes artificiels extrêmement réalistes grâce à des réseaux de neurones artificiels. Explications avec Flora Jay qui a coordonné ces travaux. Votre domaine de recherche est au croisement de l’informatique et de la génétique. Quelles sont les grandes questions que vous vous posez ? Flora Jay1. Pour préciser, je dirai que mon champ de recherche est entre l'informatique, la génétique, mais aussi les mathématiques et la statistique. À partir de données génétiques, j’essaie de reconstruire l'histoire démographique des populations. Par exemple, comment des espèces ou des populations se sont séparées puis de nouveau mélangées, ou comment certains facteurs ou événements ont conduit à la sélection de certaines versions des gènes. Dans mes recherches, il y a des aspects écologiques, historiques, médicaux."
Creating artificial human genomes using generative neural networks
Article paru dans PLoS Genet 17(2)(February 4, 2021); B. Yelmen, A. Decelle, L. Ongaro et al.
"Generative models have shown breakthroughs in a wide spectrum of domains due to recent advancements in machine learning algorithms and increased computational power. Despite these impressive achievements, the ability of generative models to create realistic synthetic data is still under-exploited in genetics and absent from population genetics. Yet a known limitation in the field is the reduced access to many genetic databases due to concerns about violations of individual privacy, although they would provide a rich resource for data mining and integration towards advancing genetic studies. In this study, we demonstrated that deep generative adversarial networks (GANs) and restricted Boltzmann machines (RBMs) can be trained to learn the complex distributions of real genomic datasets and generate novel high-quality artificial genomes (AGs) with none to little privacy loss. We show that our generated AGs replicate characteristics of the source dataset such as allele frequencies, linkage disequilibrium, pairwise haplotype distances and population structure. Moreover, they can also inherit complex features such as signals of selection. To illustrate the promising outcomes of our method, we showed that imputation quality for low frequency alleles can be improved by data augmentation to reference panels with AGs and that the RBM latent space provides a relevant encoding of the data, hence allowing further exploration of the reference dataset and features for solving supervised tasks. Generative models and AGs have the potential to become valuable assets in genetic studies by providing a rich yet compact representation of existing genomes and high-quality, easy-access and anonymous alternatives for private databases."
Etude bioinformatique des lectines : nouvelle classification et prédiction dans les génomes
par François Bonnardel
"Les domaines de la bioinformatique utilisent des concepts mathématiques et des outils informatiques pour démêler les connaissances dans les données biologiques. Lorsque la bioinformatique est appliquée aux glycanes et à la glycobiologie, elle est appelée glyco-informatique. Les nouvelles technologies permettent le séquençage massif des génomes de nouvelles espèces et des métagénomes d'échantillons environnementaux. Mais tous les génomes nouvellement découverts et les protéines encodées ne sont que partiellement annotés d'une fonction biologique, récupérée par similarité à partir des organismes de référence.La glycobiologie est le domaine de recherche consacré à l'étude des glycanes/glucides, composés d'un ou de plusieurs monosaccharides. Les lectines sont des protéines capables de se lier de manière réversible aux glycanes, et sans fonctions enzymatiques. Les lectines sont des outils puissants pour la reconnaissance des glycanes dans les échantillons, et elles sont également des cibles pour les composés thérapeutiques en raison de leur implication dans le cancer, l'immunologie et les infections.Cette thèse vise à utiliser la bioinformatique pour développer de nouveaux outils in-silico pour l'étude des lectines. Elle a pour objectif de fournir, dans une nouvelle base de données en ligne, des informations sur les lectines pour les organismes de référence et les nouveaux génomes appartenant à d’autres organismes.Pour fournir une classification des structures 3D des lectines et leur annotation dans les génomes, un portail web dédié a été développé, appelé UniLectin. Le module UniLectin3D fournit des structures 3D classées et stockées manuellement, ainsi que leurs glycanes en interaction. En raison de la difficulté d'identifier les lectines répétées en tandem dans les génomes, une méthode spécifique a été mise au point pour permettre la prédiction de ses lectines particulières, maintenant disponibles dans les modules PropLec et TrefLec. Enfin, le module LectomeXplore fournit des lectines prédites basées sur les 107 classes de UniLectin3D, dans les génomes disponibles du NCBI et d'UniProt. Cela a permis l'étude des lectomes de différents environnements par le biais de la collaboration, dans la dernière partie de la thèse."
Pour aller plus loin ...
Bourdet, Julien La bioinformatique, une alliée de taille contre le Covid-19 CNRS Le journal [en ligne], 26.05.2021. (Accès campus)
Boguslav, M.R., Hailu, N.D., Bada, M., Baumgartner, W.A., Hunter, L.E., 2021. Concept recognition as a machine translation problem. BMC Bioinformatics [en ligne]. 22, 598. . (Accès campus)
Kothari, D., Patel, M., Sharma, A.K., 2021. Implementation of Grey Scale Normalization in Machine Learning amp; Artificial Intelligence for Bioinformatics using Convolutional Neural Networks, 6th International Conference on Inventive Computation Technologies (ICICT). [en ligne]. pp. 1071–1074. (Accès campus)
Wang, J., Zhang, Z., 2021. GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction. Genomics, Proteomics & Bioinformatics. (Accès campus)
Actualités sur la bio-informatique
-
Développement et applications de méthodes bioinfo...
Les structures protéiques peuvent être divisées en répétitives et apériodiques, les structures apériodiques correspondant pour la...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 26 juin 2022 13:50 -
Méthodologie et outils bioinformatiques d'aide à ...
La biologie synthétique est une discipline en pleine expansion visant à concevoir et construire des systèmes biologiques possédan...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 26 juin 2022 13:50 -
Development of bioinformatics method for predicti...
A broad range of human diseases are linked to the formation of insoluble, fibrous, protein aggregates called amyloid fibrils. The...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 26 juin 2022 13:50 -
Development of bioinformatics method for predicti...
A broad range of human diseases are linked to the formation of insoluble, fibrous, protein aggregates called amyloid fibrils. The...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 26 juin 2022 13:50 -
[hal-03695640] Identification of Dysregulated Exp...
Background: Many studies link G protein-coupled receptors (GPCRs) to cancer. Some endocrine tumors are unresponsive to standard t...
HAL : Dernières publicationsmercredi 15 juin 2022 20:31 -
[hal-02292904] Benchmarking of Amplicon-Based Nex...
The recent deployment of next-generation sequencing approaches in routine laboratory analysis has considerably modified the lands...
HAL : Dernières publicationssamedi 11 juin 2022 12:47 -
[hal-02627344] Bioinformatics matters: The accura...
Fungal communities associated with plants and soil influence plant fitness and ecosystem functioning. They are frequently studied...
HAL : Dernières publicationssamedi 11 juin 2022 11:46 -
[hal-03625304] AnnoTALE: bioinformatics tools for...
Transcription activator-like effectors (TALEs) are virulence factors, produced by the bacterial plant-pathogen Xanthomonas, that ...
HAL : Dernières publicationssamedi 11 juin 2022 09:45 -
[hal-03313099] Bioinformatics study of recombinan...
[...]...
HAL : Dernières publicationssamedi 11 juin 2022 09:45 -
[hal-02623377] Multilevel comparative bioinformat...
Background: “Omics” approaches may provide useful information for a deeper understanding of speciation events, diversification an...
HAL : Dernières publicationssamedi 11 juin 2022 04:44 -
[pasteur-01459524] H3ABioNet, a sustainable pan-A...
The application of genomics technologies to medicine and biomedical research is increasing in popularity, made possible by new hi...
HAL : Dernières publicationssamedi 11 juin 2022 03:44 -
[hal-02735266] Viromes of two migratory birds as ...
[...]...
HAL : Dernières publicationssamedi 11 juin 2022 03:44 -
[hal-01129469] Is there a leptin gene in the chic...
absent...
HAL : Dernières publicationssamedi 11 juin 2022 02:43 -
[hal-01207320] E-Biothon: an experimental platfor...
The E-Biothon platform is an experimental Cloud platform to help speed up and advance research in biology, health and environment...
HAL : Dernières publicationssamedi 11 juin 2022 01:43 -
[hal-00324138] Chemogenomics: a discipline at the...
Chemogenomics is the study of the interaction of functional biological systems with exogenous small molecules, or in broader sens...
HAL : Dernières publicationsvendredi 10 juin 2022 23:43 -
[pasteur-03682347] Bioinformatics applications di...
Given the sheer number of existing analysis tools and data sources, defining and running bioinformatics analyses is often challen...
HAL : Dernières publicationsvendredi 10 juin 2022 23:43 -
[hal-03692965] HLA Graph, a Free and Ready-to-Use...
INTRODUCTION: HLA antigens are highly polymorphic and their immunogenicity is dependent on the configurations of polymorphic amin...
HAL : Dernières publicationsvendredi 10 juin 2022 10:42 -
Innovative bioinformatics approaches for the anal...
In the last years, the advent of exome sequencing (ES) in diagnosis and in research led to the identification of the genetic base...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 29 mai 2022 14:52 -
Innovative bioinformatics approaches for the anal...
In the last years, the advent of exome sequencing (ES) in diagnosis and in research led to the identification of the genetic base...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 29 mai 2022 14:52 -
Innovative bioinformatics approaches for the anal...
In the last years, the advent of exome sequencing (ES) in diagnosis and in research led to the identification of the genetic base...
BASE: Résultats pour tit:bioinformatics continent:ceu (Filtres: Sujet: Bioinformatics; Bioinformatique)dimanche 29 mai 2022 14:52