Test statistique

Tests statistiques relatifs
aux indicateurs de mortalité en population

Tests statistiques relatifs aux indicateurs de mortalité en population
Statistical tests for population mortality indicators

Source : Inserm - CépiDc
Jougla E. - Rev. Epidém. et Santé Publ., 1997, 45, 78-84

  1. Introduction
  2. Définition d'un taux de décès
  3. Loi de probabilité d'un taux de décès
  4. Comparaison d'un taux de décès observé à un taux de décès théorique
  5. Comparaison de deux taux de décès observés
  6. Comparaison de deux taux de décès standardisés (standardisation directe ou méthode de la population type)
  7. Indice comparatif de mortalité (Standardized Mortality Ration)
  8. Conclusion
  9. Référence

L'objectif de cette note est de présenter un certain nombre de tests simples s'appliquant aux problèmes de comparaison les plus fréquents rencontrés dans les études descriptives de mortalité en population. Ces tests concernent les indicateurs classiques de mortalité : taux bruts et spécifiques de décès, taux standardisés (méthodes directe et indirecte). Les tests sont basés sur la convergence de la loi de Poisson vers la loi normale. Pour chaque type de comparaison, les intervalles de confiance sont également présentés.

Taux de décès. Taux standardisés. SMR. Intervalle de confiance. Loi de Poisson.

The objective of this note is to present simple statistical tests applied to common comparison problems met in descriptive studies in the general population. These tests apply to classical mortality indicators : crude and specific death rates, standardized rates (direct and indirect methods). The tests are based on the convergence of the Poisson distribution towards the normal distribution. For each type of comparison, confidence intervals are also provided.

Death rate. Standardized rate. SMR. Confidence interval. Poisson distribution.

1. Introduction

Un test statistique s'applique à la comparaison de paramètres caractéristiques des distributions de variables observées sur des échantillons (comparaison de pourcentages, moyennes...). L'utilisation d'un test est alors justifiée par l'existence de fluctuations aléatoires des valeurs estimées des paramètres autour de leurs vraies valeurs du fait du tirage au sort des échantillons.

Pour l'analyse des variations de mortalité en population, on pourrait penser qu'il n'est pas nécessaire d'avoir recours à des tests dans la mesure où les unités statistiques considérées sont des populations entières et non des échantillons (comparaison du niveau de mortalité de deux pays ou de deux régions au sein d'un même pays, comparaison de la mortalité de la population selon le sexe, l'âge...). En fait, même si les caractéristiques d'une population sont fixées, le taux de décès doit être considéré comme aléatoire. La population étudiée peut en effet être elle-même considérée comme un échantillon de sondage d'une population imaginaire formée à son image [1,2].

L'objectif de cette note est de présenter un certain nombre de tests simples à mettre en oeuvre concernant les indicateurs descriptifs de mortalité utilisés le plus couramment [3]: taux bruts et spécifiques (par sexe, âge, causes de décès...), taux standardisés (taux comparatifs et indice comparatif de mortalité ou SMR (1)). Les tests présentés sont basés sur la convergence de la loi de Poisson vers la loi normale. Ils supposent donc que les effectifs de décès observés sont suffisants. Dans le cas de faibles effectifs, du fait de l'instabilité des taux de décès, des problèmes d'interprétation se posent autres que ceux liés à la signification statistique des différences observées.

2. Définition d'un taux de décès

Un taux de décès est une notion moins simple à appréhender statistiquement qu'une probabilité de décès.

Une probabilité de décès (ou quotient de décès en démographie) s'obtient en rapportant le nombre de décès observé au cours d'une période donnée à l'effectif de la population en vie au début de la période. Il s'agit donc d'une proportion.

P : probabilité de décès observée durant la période

nd: effectif de décès observé durant la période

NO : effectif de la population au début de la période

Pet nd sont aléatoires, NO peut être considéré comme non aléatoire [4]. Il existe également une probabilité théorique (inconnue) de décès p(2) dans la population.

Pour simplifier, nous considérerons dans la suite une période d'observation d'un an (situation classique dans le contexte des études de mortalité en population générale).

Un taux de décès est défini comme le rapport de l'effectif de décès observé durant l'année à la population à risque durant la même période (mesurée en personnes-années). Un taux de décès s'apparente ainsi à une vitesse (nombre de décès observé par unité de temps) :

t : taux de décès durant l'année

nd : effectif de décès observé durant l'année

D : cumul des durées de vie vécues durant l'année par chaque sujet en vie en début de période (nombre de personnes-années cumulées durant l'année).

Dans le cas d'une étude de cohorte, on peut généralement rapporter le nombre de décès observé au cumul exact des temps de suivi de chaque sujet. Dans l'analyse des décès au sein d'une population générale, on ne dispose pas du temps de suivi exact de chaque sujet durant la période d'étude. On utilise alors un dénominateur "moyen" : durée moyenne de suivi de l'ensemble de la population (population moyenne). Dans le cas où le nombre de décès est petit par rapport à l'effectif de la population, cette population moyenne est une estimation fiable de la durée de suivi exact [5]. Les données relatives aux populations moyennes sont disponibles lors des recensements et entre les recensements à partir des estimations inter-censitaires. Le taux de décès s'obtient alors par :

Np> : effectif de la population moyenne durant l'année (il s'agit en fait d'un nombre de personnes-années : Np *1an)

Compte tenu du faible nombre de décès par rapport aux effectifs de la population, les taux de décès sont souvent donnés pour 100 000 personnes (le numérateur est multiplié par 105

(1) Standardized mortality ratio.

(2) Pour l'ensemble du contenu de la note, les minuscules indiquent des variables aléatoires (que l'on peut estimer) et les majuscules des valeurs théoriques (paramètres).

3. Loi de probabilité d'un taux de décès

Dans l'expression ci-dessus, Np étant non aléatoire, on obtient la variance de t par :

img

L'effectif nd de décès observé dans l'année suit une loi binomiale de paramètre NO et P(NO effectif de la population en vie en début d'année et P probabilité théorique de décès durant l'année). NO étant grand et P petit, cette loi binomiale peut être approximée par une loi de Poisson de paramètre PNO estimé par pNO =nd (nd est également l'estimation de la variance de cette loi de Poisson).

On en déduit, l'estimation de la variance d'un taux de décès :

img

Si l'effectif nd est suffisant (par exemple, nd > 20), on peut faire une approximation normale de la loi de Poisson.

On en déduit la loi de probabilité suivie par un taux de décès observé :

img

T : taux de décès théorique

N µ σ : loi normale de moyenne µ et d'écart type σ

et la formule de l'intervalle de confiance d'un taux de décès T :

sch

Za/2 : valeur de la loi normale centrée - réduite Z telle que P(Z> Za/2)= a (ex: si a = 0,05 , Za/2 = 1,96)

Exemple : on a observé en 1992, pour la région Aquitaine, 39 décès par sida chez les femmes entre 25 et 44 ans (population moyenne de l'année: 425 036). L'intervalle à 95% du taux de décès est :

img

Dans le cas où les effectifs sont insuffisants pour admettre l'approximation par la loi normale, on doit utiliser l'intervalle de confiance exact d'une loi de Poisson (voir par exemple la table présentée en [4]). Dans l'exemple précédent, l'intervalle de confiance à 95% d'une loi de Poisson de paramètre 39 est : 27,7-53,3, ce qui conduit à l'intervalle de confiance pour le taux de décès : 6,5-12,5. Cet intervalle exact est très proche de celui obtenu sur la base de l'approximation normale (alors que le nombre de décès observé n'est pas très élevé).

4. Comparaison d'un taux de décès observé
à un taux de de décès théorique

Le test est basé sur l'utilisation de la loi normale (on suppose que l'effectif de décès observé est suffisant). Sous l'hypothèse nulle HO d'égalité au taux théorique T, on a :

Exemple: comparaison du taux de décès par sida observé chez les femmes de 25 à 44 ans en Aquitaine en 1992 (39 décès pour une population moyenne de 425 036) au taux théorique: 5,84 pour 100 000.

(différence significative à p<0,01)

Application : comparaison d'un taux de décès observé dans une population (ou dans un sous groupe de population) à un taux théorique connu par ailleurs. On pourra également considérer comme théorique un taux calculé dans une population très importante par rapport à celle dans laquelle est calculé le taux observé.

Un cas particulier assez fréquent est celui où l'on compare le taux observé d'une sous-population (par exemple une région) au taux national. La population étudiée est alors un sous-ensemble de la population de référence et les deux taux comparés ne peuvent être considérés comme indépendants. On doit alors utiliser un facteur correctif en multipliant l'écart-type de t par la quantité

avec Np : effectif correspondant à la sous-population et N : effectif de la population générale de référence [6]. Le facteur correctif appliqué au dénominateur étant inférieur à 1, la puissance du test est ainsi améliorée.

Dans l'exemple précédent, si le taux théorique (5,84 pour 100 000) est en fait le taux correspondant à la France entière en 1992 (population moyenne: 8 926 430), c'est la formule corrigée qu'il faut utiliser:

(différence significative à p<0,01)

5. Comparaison de deux taux de décès observés

Soient deux taux de décès observés dans deux populations :

t1, t2 : taux de décès observés durant l'année

n1, n2 : effectifs de décès observés durant l'année

N1, N2 : effectifs des populations moyennes durant l'année.

On suppose que les effectifs de décès n1 et n2 sont suffisants pour admettre l'approximation normale des lois de Poisson. On peut alors en déduire les lois suivies par t1 et t2 .

t1 , t2 : taux de décès théoriques et l'intervalle de confiance de la différence de deux taux de décès t1 , t2 :

Le test est basé sur la loi normale. Sous l'hypothèse nulle HO d'égalité des deux taux de décès (T1 = T2 )

Du fait de l'hypothèse nulle sous-jacente, il est préférable d'utiliser dans l'expression de la variance de t1 - t2 , une estimation commune t du taux de décès T dans les deux populations :

Exemple : comparaison du taux de décès par sida en 1992 chez les femmes de 25 à 44 ans en Aquitaine (39 décès) et en région PACA (96 décès) (population moyenne : 425 036 en Aquitaine et 645 853 en PACA).

t1 = 9,18 pour 100 000 et t2 = 14,86 pour 100 000

t = (39+96)* 105/(425 036 + 645 853) = 12,61 pour 100 000

(différence significative à p<0,05)

Lorsque les effectifs des deux populations comparées sont identiques, la formule précédente se réduit à la comparaison de deux nombres de décès observés :

Cette formule très simple à mettre en oeuvre, peut par exemple être utilisée lorsque l'on compare l'évolution de la mortalité dans une même population entre deux périodes de temps proches (en faisant l'hypothèse que l'effectif de la population a très peu changé).

6. Comparaison de deux taux de décès standardisés (standardisation directe ou méthode de la population type)

Un taux de décès comparatif s'obtient en appliquant les taux de décès par âge observés dans la population étudiée à la structure d'âge d'une population de référence (lorsque la standardisation est effectuée selon l'âge).

tc : taux de décès comparatif (standardisé par âge).

ti : taux de décès observé dans la classe d'âge i de la population étudiée (k classes d'âge au total).

NR : effectif de la population moyenne de référence.

NiR : effectif de la population moyenne de référence pour la classe d'âge i.

k : nombre de classes d'âge.

En faisant l'hypothèse de l'indépendance des variations aléatoires par entre les ti , on en déduit l'estimation de la variance d'un taux de décès comparatif :

tc est une combinaison linéaire des ti . Si les effectifs de décès sont suffisants, les ti suivent des lois normales et donc tc suit également une loi normale. On en déduit la loi de probabilité suivie par un taux de décès comparatif

Tc : taux de décès comparatif théorique

Ti : taux de décès théorique pour la classe d'âge i

et l'intervalle de confiance d'un taux de décès comparatif :

Le test de comparaison de deux taux de décès comparatifs est donné par :

tc1, tc2 : taux de décès comparatifs observés

ti1 , ti2 : taux de décès observés pour la classe d'âge i

Ni1 , Ni2 : effectifs des populations moyennes pour la classe d'âge i

Exemple : comparaison des taux de décès comparatifs par sida en 1992 chez les hommes de moins de 55 ans en Ile-de France et en région PACA

Effectif de décès en Ile-de-France :

na <25 = 24, na 25-34 = 639, na 35-44 = 584,

na 45-54 = 290 et en PACA : nb <25 = 10,

nb 25-34 = 210, nb 35-44 = 151, nb 45-54 = 52

Population moyenne en Ile-de-France :

Na <25 = 1 833 998 , Na 25-34 = 916 350,

Na 35-44 = 867 823 , Na 45-54 = 613 374

et en PACA :

Nb<25 = 678 142 , Nb 25-34 = 298 991,

Nb 35-44 = 309 891 , Nb 45-54 = 235 527

Population de référence (France) :

NR<25 = 9 832 413 , NR 25-34 = 4 286 226, NR 35-44 = 4 342 139 , Nb 45-54 = 2 932 879.

La formule précédente conduit à : z = 4,37 (différence significative à p < 0,001).

7. Indice comparatif de mortalité
(Standardized Mortality Ration)

Un SMR (Standardized Mortality Ratio) est le rapport (multiplié par 102) d'un nombre observé de décès (n) à un nombre attendu (A). Le nombre de décès attendu est obtenu sur la base de la structure de mortalité d'une population de référence (mortalité-type). Un SMR supérieur (inférieur) à 100 indique une mortalité plus (moins) élevée dans la zone étudiée par rapport à la population de référence.

n : effectif total de décès observés dans la population étudiée

Ni : effectif de la population moyenne étudiée pour la classe d'âge i

tiR : taux de décès dans la population de référence pour la classe d'âge i

Les données de la population de référence pouvant être considérées comme non aléatoires, on obtient l'estimation de la variance d'un SMR par :

Pour la formule de l'intervalle de confiance d'un SMR, différentes solutions ont été proposées [4,5,7-9]. Parmi ces solutions, on peut retenir la méthode de Byar présentée dans Breslow-Day [8] et dans Bouyer [5] qui conduit à des résultats extrêmement proches de ceux obtenus avec la méthode exacte basée directement sur l'intervalle de confiance d'une loi de Poisson:

Exemple : Pour n = 60 et A = 43,9, on obtient l'intervalle de confiance à 95% du SMR : 104-176 (l'intervalle exact basé sur la loi de poisson est identique). Pour n = 8 et A = 13,2, on obtient l'intervalle : 26-119 ( intervalle "exact" également identique).

Le test du SMR consiste à comparer la valeur du SMR à 100 (HO : SMR = 100).

Sous HO , le nombre de décès observés n suit une loi de Poisson de paramètre A que l'on peut approximer par une loi normale (si n n'est pas trop faible) :

Pour améliorer l'approximation normale de la loi de Poisson, on peut introduire un terme de correction [8]:

Exemple : n = 60 et A = 43,9, z = 2,35 (SMR significativement différent de 100 avec P <0,05). avec n = 8 et A = 13,2, on obtient: z = 1,29 (SMR non significativement différent de 100).

8. Conclusion

Dans cette note nous avons présenté une série de tests simples pour les problèmes de comparaison les plus fréquents dans les études descriptives de mortalité en population.

Les tests présentés sont à utiliser avec prudence dans le cas de très faibles effectifs. Le critère de convergence des lois de Poisson vers la loi normale varie, de n = 10 [5] à n = 50 [4] selon les auteurs. Si les effectifs sont très faibles, on devra utiliser directement la loi de Poisson. Les exemples numériques indiquent cependant que l'adéquation des formules proposées est très bonne, même avec des effectifs restreints.

Au contraire, lorsque les effectifs de décès analysés sont très élevés, les tests statistiques sont très puissants et donc aboutissent généralement à des différences très significatives et à des intervalles de confiance très réduits. L'intérêt des tests est alors plus limité et il est important de discuter du sens épidémiologique des différences obtenues (indépendamment du degré de signification des tests) [10].

Pour la comparaison de taux, les tests présentés reviennent souvent à traiter le taux de décès comme une proportion et, un taux de décès étant généralement très petit, à approximer 1-t par 1 [11].

Les tests sont basés sur la loi normale centrée réduite ou, d'une manière équivalente, sur la loi du X2 à 1 degré de liberté en élevant les formules au carré.

Les démonstrations s'appuient souvent sur le caractère non aléatoire des données relatives aux populations de référence. On peut trouver une discussion sur la validité de cette hypothèse dans [4,7].

Pour chaque type de comparaison, nous avons fait figurer les intervalles de confiance. De nombreux épidémiologistes considèrent qu'il s'agit des données les plus intéressantes à fournir en critiquant le caractère arbitraire du choix des seuils de signification associés aux tests statistiques [12].

Les techniques de comparaison présentées constitue une première étape de l'analyse des différences observées. Les études comparatives plus approfondies nécessitent le recours aux techniques de modélisation qui permettent de prendre en compte simultanément un grand nombre de facteurs de confusion [4,8].

Remerciements : F. Hatton, E. Michel, G. Pavillon, L Chérié-Challine.

9. Références :

  1. Méthodes statistiques à l'usage des médecins et des biologistes.
    Schwartz D.
    Paris, Flammarion, 1993.

  2. The life table and its applications.
    Chiang CL.
    Florida, Krieger, 1984.

  3. Principaux indicateurs de mortalité.
    Michel E, Jougla E, Hatton F et al.
    Paris, DGS-INSERM, 1995.

  4. Méthodes statistiques en épidémiologie descriptive.
    Estève J, Benhamou E, Raymond L.
    Paris, INSERM, 1993.

  5. Epidémiologie-principes et méthodes quantitatives.
    Bouyer J, Hémon D, Cordier S et al.
    Paris, INSERM, 1993.

  6. Une méthode simple de comparaisons partielles. Hatton F, Facy F, Laurent F.
    Revue de Statistique Appliquée 1976 ; 24 : 75-78.

  7. Mesures statistiques en épidémiologie. Bernard PM, Lapointe C.
    Quebec, Université du Québec, 1987.

  8. Statistical methods in cancer research (vol 2).
    Breslow NE, Day NE.
    IARC Scientific Publ n°82, Lyon, International Agency for Research on Cancer, 1987.

  9. A simple method to calculate the confidence interval of a standardized mortality ratio.
    Ulm K.
    Am J Epidemiol 1990 ; 131 : 373-5.

  10. Statistiques.
    Wonnacott TH, Wonnacott RJ.
    Paris, Economica, 1984.

  11. Statistical methods in medical research.
    Armitage P, Berry G.
    London, Blackwell Scientific Publications, 1993.

  12. Modern epidemiology.
    Rothman KJ.
    Boston, Little Brown, 1986.