L’électrocardiogramme (ECG) à 12 dérivations demeure un examen fondamental du diagnostic cardiovasculaire, avec plus de 300 millions d’examens réalisés chaque année dans le monde. Les solutions d’IA existantes pour l’interprétation automatisée manquent souvent de généralisabilité, restent propriétaires et reposent sur un apprentissage supervisé nécessitant de vastes ensembles de données étiquetées.
Nous avons développé et validé deux modèles open source de base pour l'interprétation de l'ECG : DeepECG-SL, entraîné par apprentissage supervisé traditionnel, et DeepECG-SSL, un modèle auto-supervisé exploitant l'apprentissage contrastif et la modélisation des dérivations masquées. Ces deux modèles prédisent 77 pathologies cardiaques issues des recommandations de l'American Heart Association.
Données d'entraînement : Plus d'un million d'ECG de l'Institut de cardiologie de Montréal (MHI-ds), avec DeepECG-SSL pré-entraîné en plus sur 1,9 million d'ECG combinant les ensembles de données MHI-ds, Code-15 et MIMIC-IV.
Validation externe : Les deux modèles ont été validés sur 11 cohortes géographiquement diverses totalisant 881 403 ECG :
Capacité multilingue : Nous avons développé un classificateur basé sur BERT entraîné sur 640 518 paires paragraphe-étiquette pour permettre l'extraction automatisée de diagnostics à partir de rapports ECG en anglais et en français.
Les deux modèles ont obtenu des performances élevées et constantes sur l'ensemble des jeux de données internes et externes :
Les performances sont restées robustes dans toutes les catégories diagnostiques : troubles du rythme (AUROC > 0,92), anomalies de la conduction (> 0,96) et élargissement des cavités (> 0,92).
Nous avons évalué les deux modèles sur des applications émergentes de biomarqueurs au-delà de l'interprétation traditionnelle de l'ECG :
Fraction d'éjection ventriculaire gauche (FEVG)
Prédiction du risque de fibrillation auriculaire à 5 ans (iAF5)
Syndrome du QT long (SQTL)
L'avantage du SSL s'est accru inversement à la taille de l'ensemble de données d'entraînement, démontrant une valeur particulière pour les maladies rares et les applications cliniques disposant de données limitées.
Nous avons développé un pipeline de prétraitement automatisé en trois étapes permettant le déploiement sur des systèmes d'acquisition ECG hétérogènes :
Ce pipeline a amélioré l'AUROC inter-ensembles de données jusqu'à 0,251, répondant ainsi à un défi fondamental dans le déploiement de l'ECG-IA.
En utilisant le cadre des chances égalisées, les deux modèles ont démontré une forte équité entre les différents groupes démographiques :
DeepECG-SL est 60 fois plus petit et 29 fois plus rapide en inférence, réduisant les émissions de CO₂ jusqu'à 9,7 fois sur des tâches équivalentes.
La comparaison directe entre les classes diagnostiques communes a démontré la supériorité constante des modèles DeepECG par rapport à ECGFounder et ECG-FM sur des jeux de données externes. DeepECG-SSL a permis d'obtenir des améliorations nettes de la reclassification allant de +0,113 à +1,20 pour les étiquettes se chevauchant.
L'apprentissage auto-supervisé permet le développement de modèles ECG généralisables, performants et équitables. DeepECG-SSL a excellé dans l'adaptation à de nouvelles tâches lorsque les données annotées sont limitées, tandis que DeepECG-SL offre une alternative légère adaptée aux environnements aux ressources restreintes. Les deux modèles garantissent une équité robuste entre les différents groupes démographiques.
En publiant les pondérations des modèles, les outils de prétraitement et le code de validation, nous visons à soutenir des diagnostics d'IA robustes et économes en données dans divers environnements cliniques.
Code: https://github.com/HeartWise-AI/DeepECG_Docker/tree/main