Formation analyses statistiques appliquées à la protéomique
Dans le cadre de sa mission d’accompagnement des chercheurs et professionnels de la recherche sur le cancer, le Cancéropôle Île-de-France propose une formation en statistique dédiée aux analyses bio-statistiques adaptées à la gestion et l’interprétation des données issues d’analyses protéomiques d’échantillons complexes.
Objectifs : traiter de façon optimale l’aspect bio-statistique des analyses protéomiques en se focalisant sur l’analyse des analyses sans marquage (« label-free ») qui sont maintenant les plus utilisées.
Public concerné :
- ingénieurs, techniciens, chercheurs travaillant sur une plateforme de protéomique francilienne dans le domaine du cancer
- chercheurs travaillant sur des projets de recherche de protéomique dans le domaine du cancer
Prérequis : les personnes s’inscrivant à la formation devront posséder des bases solides en statistiques, aucune remise à niveau ne sera effectuée avant la formation.
Matériel : Pour pouvoir réaliser les exercices pratiques proposés pendant la formation, il vous sera demandé de venir à la formation équipé d’un ordinateur portable disposant de R, du logiciel R Studio et de packages dédiés (dont la liste vous sera communiquée avant la formation).
Prochaine session : MARDI 23 AU JEUDI 25 MARS 2021, 9h – 17h La participation à la formation complète (3 jours) est obligatoire. Une convention de formation devra être signée par votre organisme d’appartenance avant votre participation à la formation. Les frais de formation sont pris en charge par le Cancéropôle IDF. |
Programme de la formation
Les projets traités dans une plateforme protéomique impliquent souvent un nombre de réplicats limité (fréquemment pas plus de 3 ou 4 échantillons par groupe expérimental). Comment intégrer ce critère dans les calculs bio-statistiques ? Comment gérer les protocoles expérimentaux complexes avec de nombreuses variables expérimentales ? Quels sont les critères liés aux types d’échantillons analysés pour choisir le type d’analyse statistique ? Comment peut-on comparer les données issues de matériel différent ?
La formation se déroulera sur trois jours et permettra d’aborder ces différents points d’un point de vue théorique. Des exercices pratiques vous seront également proposés sous R et R Studio.
Jour 1 : Choix du test statistique
Quel test statistique choisir pour une analyse protéomique différentielle globale selon le nombre d’échantillons, le nombre de groupes à comparer ? Comment évaluer la normalité et s’en affranchir ?
- Le z-score
- L’Anova omique (selon X conditions et Z protéines )
- Test paramétriques / non paramétriques
- Tests appariés / non appariés
- Corrélations
- Les pièges de la multiplicité des tests (Risque alpha global, FWER et FDR)
- Corrections et tests post-hoc
Jour 2 : Les données manquantes, question fondamentale du domaine
- Reconnaitre les structures des données manquantes
- Les différents patterns d’absence de données
- Missing Completely At Random (MCAR)
- Missing At Random (MAR)
- Not Missing At Random (NMAR)
- Quelles sont les conséquences de la présence de données manquantes et comment les gérer ?
- Problèmes d’estimation, de biais, de précision
- Les différents types d’imputation : simple et/ou multiple
- Application en R
- Visualisation des données manquantes
- Package MICE
- Package Amelia
Jour 3 : Analyses exploratoires multivariées et modèles prédictifs
- Analyses Exploratoires Multivariées :
- Analyse en Composante Principale (ACP)
- Modèles prédictifs linéaire ou non :
- La régression PLS, par-delà les colinéarités multiples et les tableaux écrasés
- Effets fixes et effets aléatoires : le modèle mixte pour dépasser les données manquantes, les réplicats techniques, les données répétées/corrélées et les groupements « de fait »
- Méthodes de classification supervisée :
- Analyse factorielle discriminante
- PLS-DA
- Ouverture vers des méthodes de « machine learning ».
Partagez