Commentaire de bibliographies du service

Supervised Machine Learning Predictive Analytics for Prediction of Postinduction Hypotension.

Kendale S, Kulkarni P, Rosenberg AD, Wang J

Anesthesiology, 1 août 2018

Commentaire, Abstract

Commentaire

Par Nicolas Polge (DESAR) et Pr Dan Benhamou

Introduction

L’hypotension est connue pour être un facteur de risque de complication péri-opératoire. De nombreux facteurs favorisant la survenue de l’hypotension à l’induction, sont connus et ont été déterminés par l’expérience clinique, confortée par des études scientifiques utilisant des méthodes de calculs statistique classiques (telles que le méthodes de régression logistique) mais la prédiction de sa survenue reste difficile. L’arrivée de méthodes de calcul nouvelles, dans le cadre de l’intelligence artificielle permettent d’appréhender de façon nouvelle de nombreuses situations en médecine. L’apprentissage automatique (machine learning) est une des méthodes d’intelligence artificielle qui semble avoir un intérêt spécifique dans la prédiction et la détermination de facteurs de risque. Les ordinateurs peuvent apprendre mais il faut les nourrir de données (big data). On parle d’apprentissage supervisé lorsque l’on fournit à la machine au départ une indication sur le paramètre qu’elle doit analyser (ici la présence d’une hypotension). Les auteurs soumettent donc ici l’hypothèse que les méthodes de machine learning sont capables de développer un outil prédictif de l’hypotension lors de l’induction anesthésique.

Méthodes

Les données informatisées sont issues de l’ensemble des anesthésies de patients d’un centre universitaire américain pendant six mois, de novembre 2015 à mai 2016. Ces données sont utilisées par plusieurs algorithmes de machine learning supervisés afin de mettre en évidence un outil prédictif de l’hypotension post induction, définie comme toute pression artérielle moyenne inférieure à 55 mmHg dans les 10 premières minutes d’anesthésie. Les paramètres analysés incluent les traitements personnels, les comorbidités médicales, les médicaments anesthésiques et les signes vitaux per opératoires.


Résultats :

Les dossiers médicaux de 13 323 patients sont analysés au sein desquels 1 185 patients (8,9%) ont expérimenté une hypotension à l’induction. La capacité prédictive d’une méthode donnée est résumée par l’AUC), c’est à dire l’aire sous la courbe ROC (receiver operating curve) qui traduit la relation entre sensibilité et spécificité. La méthode idéale possède une AUC égale à 1. Une AUC inférieure à 0,70 représente une capacité discriminante peu fiable de l’outil de prédiction. Une partie (70%) des dossiers est utilisée pour faire « travailler » la machine et lui faire analyser les données, tandis que les 30% restants sont utilisés pour tester si les algorithmes sont valides. Les différentes aires sous la courbe des modèles utilisés sont 0.71 (IC 95% 0.70 à 0.72) pour la régression logistique (l’outil classique de prédiction), alors que les AUC obtenus avec les différents programmes de machine learning sont de 0.63 (IC 95% 0.58 à 0.60) pour le support Vector Machine, 0.69 (IC 95% 0.67à 0.69) pour le Naive Bayes, 0.74 (IC 95% 0.73 à 0.75) pour le Random Forest, 0.71 (IC 95% 0.69 à 0.71) pour le réseau neuronal et enfin 0.76 (IC 95% 0.75 à 0.77) pour le gradient Boosting Machine qui donc représente le meilleur modèle. La validation interne (sur les 30% de dossiers non utilisés pour l’entraînement) permet de retrouver une confirmation de ces performances avec une aire sous la courbe de 0.74 (IC 95% 0.72 à 0.77) pour le gradient Boosting Machine.


Discussion

Il s’agit de l’une des premières études utilisant l’intelligence artificielle et plus précisément les méthodes de machine learning pour la prédiction d’événements en anesthésie. Dans toutes les disciplines médicales, l’emploi de ces outils fleurit car ils permettent potentiellement d’ouvrir vers de nouvelles informations et peut être de modifier la qualité des soins. Ici, les auteurs ont utilisé un outil prédictif de l’hypotension à l’induction. Cette dernière représente un phénomène fréquent et présente une cause de morbi-mortalité importante. Les résultats de l’étude ne permettent pas de suggérer une application de l’outil au quotidien pour le moment. En effet une validation externe (tester l’outil dans une autre population) est d’abord nécessaire. De plus, cet outil ne possède pas une forte sensibilité et spécificité puisque l’AUC est « seulement » de 0,76. Dans les études publiées jusqu’ici dans d’autres domaines de la médecine, une AUC ≥ 0,90 est souvent mise en évidence, donnant un espoir d’application clinique plus grand. Il n’est pas clair de comprendre pourquoi le résultat de cette étude est relativement décevant. Le seuil de PAM (55 mmHg) retenu est assez habituel dans les études épidémiologiques ayant montré que l’hypotension est délétère et les auteurs ont ajouté (sans succès) des analyses de sensibilité en faisant varier cette valeur pour voir si la capacité prédictive s’améliorait. Le taux d’hypotension est assez faible (≤ 10 %) alors que dans la population adulte tout-venant, le taux peut atteindre 40%, voire plus. La population étudiée ayant un faible risque, la capacité prédictive est peut-être moins bonne. De plus, les auteurs ont utilisé les données habituelles pré et per-opératoires habituelles et n’ont pas utilisé l’ensemble des informations du dossier médical, ce qui aurait peut-être permis d’identifier des facteurs invisibles jusqu’ici.

Enfin, les algorithmes de machine learning sont des outils complexes de telle sorte que le clinicien est face à une « boîte noire ». Les modèles mathématiques requièrent une connaissance mathématique que n’ont pas les praticiens qui doivent croire le résultat. L’ordinateur donne un score prédictif brut mais ne fournit ni les facteurs de risque individualisés ni les mécanismes physiologiques pour chaque facteur qui est inséré dans le modèle (la machine d’ailleurs ne le peut pas car elle ne connaît pas la physiologie et ne fait que du calcul abstrait sans connaître la signification des données qu’elle traite). Cependant, cette étude ouvre une voie qui peut servir de modèle à de futures études qui auront pour objectifs de déterminer de nouveaux scores prédictifs en anesthésie, d’affiner les modalités de calcul et de rendre plus accessibles les outils statistiques. Il s’agit donc d’un outil dont l’importance pourrait servir dans de futures anesthésies mais dont le modèle et les paramètres restent à développer pour gagner en force et en application.

Abstract

WHAT WE ALREADY KNOW ABOUT THIS TOPIC: WHAT THIS ARTICLE TELLS US THAT IS NEW: BACKGROUND:: Hypotension is a risk factor for adverse perioperative outcomes. Machine learning methods allow large amounts of data for development of robust predictive analytics. The authors hypothesized that machine learning methods can provide prediction for the risk of postinduction hypotension METHODS:: Data was extracted from the electronic health record of a single quaternary care center from November 2015 to May 2016 for patients over age 12 that underwent general anesthesia, without procedure exclusions. Multiple supervised machine learning classification techniques were attempted, with postinduction hypotension (mean arterial pressure less than 55 mmHg within 10 min of induction by any measurement) as primary outcome, and preoperative medications, medical comorbidities, induction medications, and intraoperative vital signs as features. Discrimination was assessed using cross-validated area under the receiver operating characteristic curve. The best performing model was tuned and final performance assessed using split-set validation.

RESULTS: Out of 13,323 cases, 1,185 (8.9%) experienced postinduction hypotension. Area under the receiver operating characteristic curve using logistic regression was 0.71 (95% CI, 0.70 to 0.72), support vector machines was 0.63 (95% CI, 0.58 to 0.60), naive Bayes was 0.69 (95% CI, 0.67 to 0.69), k-nearest neighbor was 0.64 (95% CI, 0.63 to 0.65), linear discriminant analysis was 0.72 (95% CI, 0.71 to 0.73), random forest was 0.74 (95% CI, 0.73 to 0.75), neural nets 0.71 (95% CI, 0.69 to 0.71), and gradient boosting machine 0.76 (95% CI, 0.75 to 0.77). Test set area for the gradient boosting machine was 0.74 (95% CI, 0.72 to 0.77).

CONCLUSIONS: The success of this technique in predicting postinduction hypotension demonstrates feasibility of machine learning models for predictive analytics in the field of anesthesiology, with performance dependent on model selection and appropriate tuning.

Approfondir

Sur le même thème