Le codage de la cause initiale du décès à partir des certificats de décès est un processus qui est actuellement entrepris principalement par des humains avec l'assistance potentielle de systèmes experts tels que le logiciel Iris. En conséquence, il s’agit d’un processus coûteux qui peut en outre souffrir de divergences géospatiales, nuisant ainsi gravement à la comparabilité des statistiques sur les décès au niveau international. Les récents progrès de l'intelligence artificielle, en particulier la mise au point de méthodes d'apprentissage en profondeur, ont permis aux ordinateurs de prendre des décisions efficaces sur un certain nombre de problèmes complexes qui étaient généralement considérés comme inaccessibles sans assistance humaine. Cependant, ils ont besoin d’une quantité considérable de données, ce qui est généralement leur principal facteur limitant. Or, le CépiDc détient une base de données exhaustive sur les certificats de décès à l’échelle nationale française, représentant plusieurs millions d’exemples de formation disponibles pour l'apprentissage statistique. Cet article présente un outil d'apprentissage profond pour le codage automatisé de la cause initiale du décès à partir des données contenues dans les certificats de décès avec une précision de 97,8%, un résultat excellent comparé au logiciel Iris qui obtient une précision de 75% évaluée sur les mêmes exemples de test. Une telle amélioration ouvre tout un champ de nouvelles applications, du codage automatisé par lots au niveau nosologiste à l'harmonisation internationale et temporelle des statistiques de causes de décès.

Pour en savoir plus...