June 30, 2025
DeepECG AI
Alexis Nolin-Lapalme, Achille Sowa, Jacques Delfrate, Olivier Tastet, Denis Corbin, Merve Kulbay, Derman Ozdemir, Marie-Jeanne Noël, François-Christophe Marois-Blanchet, François Harvey, Surbhi Sharma, Minhaj Ansari, I-Min Chiu, Valentina Dsouza, Sam F. Friedman, Michaël Chassé, Brian J. Potter, Jonathan Afilalo, Pierre Adil Elias, Gilbert Jabbour, Mourad Bahani, Marie-Pierre Dubé, Patrick M. Boyle, Neal A. Chatterjee, Joshua Barrios, Geoffrey H. Tison, David Ouyang, Mahnaz Maddah, Shaan Khurshid, Julia Cadrin-Tourigny, Rafik Tadros, Julie Hussin, Robert Avram
Un ECG au Cœur de l’Intelligence Artificielle

L’électrocardiogramme (ECG) 12 dérivations est un outil fondamental pour le diagnostic des maladies cardiaques. Cependant, les solutions d’intelligence artificielle (IA) développées jusqu’à présent sont souvent limitées : elles manquent de généralisation, sont rarement accessibles en open-source, et reposent principalement sur l’apprentissage supervisé, ce qui freine leur adaptation aux divers contextes cliniques.

Face à ces défis, nous avons conçu et comparé deux modèles fondamentaux d’IA pour l’ECG : DeepECG-SSL, un modèle basé sur l’apprentissage auto-supervisé, et DeepECG-SL, un modèle traditionnel supervisé. 

L’objectif ? Offrir une solution plus robuste, équitable et efficace pour l’interprétation automatisée des ECGs.

La stratégie

Nous avons entraîné nos modèles sur plus d’un million d’ECGs provenant de l’Institut de cardiologie de Montréal. De plus, nous avons travaillé à générer une approche automatique de génération d’étiquettes diagnostiques à partir des comptes rendus associés à ces ECGs, en utilisant un modèle BERT capable de fonctionner aussi bien en anglais qu’en français.

Les modèles ont ensuite été évalués dans sept hôpitaux et sur quatre jeux de données publiques, couvrant un large éventail de diagnostics. Une analyse de l’équité a également été menée pour évaluer d’éventuelles disparités de performance selon l’âge et le sexe.

Les résultats:

DeepECG-SSL a démontré une excellente performance en termes d’aire sous la courbe ROC (AUROC), atteignant 0.990 sur le jeu de données interne, 0.981 sur les bases de données publiques et 0.983 sur les bases de données privées. DeepECG-SL a obtenu des résultats comparables avec des AUROCs de 0.992, 0.980 et 0.983 respectivement. Ces performances élevées et cohérentes sur des bases de données internes, publiques et privées soulignent la robustesse et la capacité de généralisation des deux modèles, renforçant ainsi leur potentiel pour une application clinique à grande échelle.

Les memes models a de nouvelles sauces:

L’un des objectifs majeurs de notre étude était d’évaluer la capacité des modèles DeepECG-SL et DeepECG-SSL à généraliser sur des tâches inédites, en particulier la prédiction et la classification de la fraction d’éjection ventriculaire gauche (LVEF), la détection et la classification des sous-types du syndrome du QT long (LQTS), ainsi que la prédiction du risque de fibrillation auriculaire sur 5 ans (iAF5). Ces tâches ont été sélectionnées non seulement parce que nous disposions de bases de données annotées de grande taille issues de nos sites de validation externes, mais aussi parce qu’elles permettent une comparaison directe avec des études cliniques précédentes menées par notre équipe.

Nous avons évalué ces tâches sur des ensembles de données internes et externes, en mesurant la performance des modèles à l’aide de l’AUROC. DeepECG-SSL a surpassé DeepECG-SL pour la prédiction du risque de fibrillation auriculaire à 5 ans (0.742 vs. 0.720, Δ=0.022, P<0.001) et l’identification d’une fraction d’éjection réduite ≤40% (0.928 vs. 0.900, Δ=0.028, P<0.001), tout en maintenant une performance équivalente pour la classification LVEF <50% et la détection du LQTS. Lors de la validation externe sur des bases de données indépendantes, DeepECG-SSL a démontré une meilleure généralisation sur plusieurs institutions et populations. L’analyse de l’impact de la taille des données d’entraînement a confirmé cet avantage, notamment pour les tâches avec un volume limité d’annotations. Ces résultats soulignent le potentiel de l’apprentissage auto-supervisé pour améliorer la robustesse et l’adaptabilité des modèles ECG dans des contextes cliniques variés.

L’équité:

En plus de leur performance diagnostique, nous avons évalué l’équité des modèles afin de garantir des résultats cohérents entre différents groupes démographiques. L’équité en IA repose sur des métriques comme l’equalized odds, qui vérifie que le taux de vrais positifs (TPR) et le taux de faux positifs (FPR) sont similaires entre les groupes, limitant ainsi les biais. Nos analyses montrent que les deux modèles présentent une forte équité, avec des différences TPR/FPR entre genres inférieures à 0.01. DeepECG-SSL affiche une meilleure balance entre les groupes d’âge et de genre, renforçant son potentiel pour une application clinique équitable 

Conclusion:

Nos résultats démontrent que l’apprentissage auto-supervisé appliqué à l’ECG permet de développer des modèles généralisables, performants et équitables. En comparaison avec l’apprentissage supervisé, DeepECG-SSL s’est distingué par une meilleure adaptation aux nouvelles tâches, en particulier lorsque les données annotées sont limitées, tout en maintenant une équité robuste entre les groupes démographiques.

En intégrant des méthodes avancées de traitement automatique du langage pour l’extraction des diagnostics et en validant nos modèles sur des bases de données variées, nous avons posé les bases d’une IA ouverte, transparente et accessible pour l’interprétation des ECGs.

Code: https://github.com/HeartWise-AI/DeepECG_Docker/tree/main