Club BioInfo : Que peut apprendre la génomique du traitement automatisé du langage naturel ? Guillaume Gautreau

Veuillez noter que cette conférence aura lieu à la Fondation Victor Lyon, Cité internationale universitaire de Paris, à l’arrêt « Cité Universitaire » (Tram/RER B).

Les pangénomes capturent la diversité au niveau des populations sous forme de graphiques qui énumèrent les variations fondamentales et accessoires, mais la croissance explosive du séquençage rend ces structures de plus en plus difficiles à optimiser et à explorer à grande échelle. Parallèlement, le traitement automatisé du langage naturel (TALN) a transformé la représentation des connaissances en apprenant à partir de corpus non étiquetés à l’aide de modèles de fondation auto-supervisés.

S’inspirant de cette évolution, nous préconisons d’apprendre directement à partir de l’ADN brut en utilisant des objectifs auto-supervisés plutôt que d’essayer d’énumérer toutes les voies alléliques. Cette présentation résume le fonctionnement des LLM et montre comment ils sont adaptés à la génomique dans un écosystème de modèles en pleine expansion.
Nous illustrons les capacités avec Evo/Evo2 : apprentissage en temps réel (Zero-Shot Learning) des effets des variants et de l’essentialité des gènes, et conception générative de promoteurs, d’opérons et de constructions multigéniques.
Nous soulignons ensuite les défis, les biais et les prochaines étapes de recherche nécessaires pour garantir la fiabilité des applications biologiques.

Après la conférence, vous êtes cordialement invités à participer à la session poster présentée par les étudiants du DU Création, analyse et valorisation de données omiques, suivie d’un cocktail.

Guillaume Gautreau – Chargé de Recherches INRAE – Jouy-en-Josas,