Intervalle de confiance pour l'espérance mathématique.  Méthodes d'analyse quantitative : Estimation des intervalles de confiance Calculer l'intervalle de confiance

Intervalles de confiance ( Anglais Intervalles de confiance) l'un des types d'estimations d'intervalle utilisées dans les statistiques, qui sont calculées pour un niveau de signification donné. Ils nous permettent d'affirmer que la vraie valeur d'un paramètre statistique inconnu de la population se situe dans la plage de valeurs obtenue avec une probabilité spécifiée par le niveau de signification statistique sélectionné.

Distribution normale

Lorsque la variance (σ 2) de la population de données est connue, le score z peut être utilisé pour calculer les limites de confiance (les points limites de l'intervalle de confiance). Par rapport à l'utilisation de la distribution t, l'utilisation du score z vous permettra de construire non seulement un intervalle de confiance plus étroit, mais également des estimations plus fiables de la valeur attendue et de l'écart type (σ), puisque le score z est basé sur un distribution normale.

Formule

Pour déterminer les points limites de l'intervalle de confiance, à condition que l'écart type de la population de données soit connu, la formule suivante est utilisée

L = X - Z α/2 σ
√n

Exemple

Supposons que la taille de l'échantillon est de 25 observations, la valeur attendue de l'échantillon est de 15 et l'écart type de la population est de 8. Pour un niveau de signification de α=5 %, le score Z est Z α/2 =1,96. Dans ce cas, les limites inférieure et supérieure de l'intervalle de confiance seront

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Ainsi, nous pouvons dire qu'avec une probabilité de 95%, l'espérance mathématique de la population se situera entre 11,864 et 18,136.

Méthodes pour réduire l'intervalle de confiance

Supposons que la fourchette soit trop large pour les besoins de notre étude. Il existe deux manières de réduire la plage de l’intervalle de confiance.

  1. Réduire le niveau de signification statistique α.
  2. Augmenter la taille de l’échantillon.

En réduisant le niveau de signification statistique à α=10%, nous obtenons un score Z égal à Z α/2 =1,64. Dans ce cas, les limites inférieure et supérieure de l'intervalle seront

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

Et l’intervalle de confiance lui-même peut s’écrire sous la forme

Dans ce cas, nous pouvons supposer qu’avec une probabilité de 90 %, les attentes mathématiques de la population se situeront dans la fourchette .

Si nous ne voulons pas réduire le niveau de signification statistique α, la seule alternative est d’augmenter la taille de l’échantillon. En l'augmentant à 144 observations, nous obtenons les valeurs de limites de confiance suivantes

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

L'intervalle de confiance lui-même aura la forme suivante

Ainsi, réduire l’intervalle de confiance sans réduire le niveau de signification statistique n’est possible qu’en augmentant la taille de l’échantillon. S’il n’est pas possible d’augmenter la taille de l’échantillon, la réduction de l’intervalle de confiance peut être obtenue uniquement en réduisant le niveau de signification statistique.

Construire un intervalle de confiance pour une distribution autre que normale

Si l'écart type de la population n'est pas connu ou si la distribution est différente de la normale, la distribution t est utilisée pour construire un intervalle de confiance. Cette technique est plus conservatrice, ce qui se reflète dans des intervalles de confiance plus larges, par rapport à la technique basée sur le score Z.

Formule

Pour calculer les limites inférieure et supérieure de l'intervalle de confiance en fonction de la distribution t, utilisez les formules suivantes

L = X - t α σ
√n

La distribution de Student ou distribution t ne dépend que d'un seul paramètre - le nombre de degrés de liberté, qui est égal au nombre de valeurs individuelles de l'attribut (le nombre d'observations dans l'échantillon). La valeur du test t de Student pour un nombre donné de degrés de liberté (n) et le niveau de signification statistique α peuvent être retrouvés dans les tableaux de référence.

Exemple

Supposons que la taille de l'échantillon est de 25 valeurs individuelles, la valeur attendue de l'échantillon est de 50 et l'écart type de l'échantillon est de 28. Il est nécessaire de construire un intervalle de confiance pour le niveau de signification statistique α = 5 %.

Dans notre cas, le nombre de degrés de liberté est de 24 (25-1), donc la valeur correspondante du tableau du test t de Student pour le niveau de signification statistique α = 5 % est de 2,064. Par conséquent, les limites inférieure et supérieure de l’intervalle de confiance seront

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

Et l'intervalle lui-même peut s'écrire sous la forme

Ainsi, nous pouvons dire qu'avec une probabilité de 95%, les attentes mathématiques de la population seront de l'ordre de .

L'utilisation de la distribution t vous permet de réduire l'intervalle de confiance soit en réduisant la signification statistique, soit en augmentant la taille de l'échantillon.

En réduisant la signification statistique de 95 % à 90 % dans les conditions de notre exemple, nous obtenons la valeur du tableau correspondant du test t de Student de 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

Dans ce cas, nous pouvons dire qu'avec une probabilité de 90%, les attentes mathématiques de la population seront dans la fourchette .

Si nous ne voulons pas réduire la signification statistique, la seule alternative est d’augmenter la taille de l’échantillon. Disons qu'il s'agit de 64 observations individuelles, et non de 25 comme dans la condition originale de l'exemple. La valeur du tableau du test t de Student pour 63 degrés de liberté (64-1) et le niveau de signification statistique α = 5 % est de 1,998.

L = 50 - 1.998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Cela nous permet de dire qu'avec une probabilité de 95%, les attentes mathématiques de la population seront dans la fourchette .

Grands échantillons

Les grands échantillons sont des échantillons d'une population de données dans laquelle le nombre d'observations individuelles dépasse 100. Des études statistiques ont montré que les échantillons plus grands ont tendance à être distribués normalement, même si la distribution de la population n'est pas normale. De plus, pour de tels échantillons, l'utilisation d'un score z et d'une distribution t donne à peu près les mêmes résultats lors de la construction d'intervalles de confiance. Ainsi, pour les grands échantillons, il est acceptable d’utiliser le score z pour la distribution normale au lieu de la distribution t.

Résumons-le

Konstantin Kravchik explique clairement ce qu'est un intervalle de confiance dans la recherche médicale et comment l'utiliser

"Katren-Style" poursuit la publication de la série de Konstantin Kravchik sur les statistiques médicales. Dans deux articles précédents, l'auteur a traité de l'explication de concepts tels que et.

Constantin Kravtchik

Mathématicien-analyste. Spécialiste de la recherche statistique en médecine et sciences humaines

Ville de Moscou

Très souvent, dans les articles sur les études cliniques, on trouve une expression mystérieuse : « intervalle de confiance » (IC à 95 % ou IC à 95 % - intervalle de confiance). Par exemple, un article pourrait écrire : « Pour évaluer l’importance des différences, le test t de Student a été utilisé pour calculer l’intervalle de confiance de 95  %. »

Quelle est la valeur de « l’intervalle de confiance à 95  % » et pourquoi le calculer ?

Qu'est-ce qu'un intervalle de confiance ? - Il s'agit de la fourchette dans laquelle se situent les moyennes réelles de la population. Existe-t-il des moyennes « fausses » ? Dans un sens, oui, c’est le cas. Nous avons expliqué qu'il est impossible de mesurer un paramètre d'intérêt dans l'ensemble de la population, les chercheurs se contentent donc d'un échantillon limité. Dans cet échantillon (par exemple, basé sur le poids corporel), il existe une valeur moyenne (un certain poids), par laquelle nous jugeons la valeur moyenne dans l'ensemble de la population. Cependant, il est peu probable que le poids moyen d’un échantillon (surtout s’il est petit) coïncide avec le poids moyen de la population générale. Par conséquent, il est plus correct de calculer et d'utiliser la plage des valeurs moyennes de la population.

Par exemple, imaginez que l'intervalle de confiance à 95 % (IC à 95 %) pour l'hémoglobine est de 110 à 122 g/L. Cela signifie qu'il y a 95 % de chances que le taux d'hémoglobine moyen réel dans la population se situe entre 110 et 122 g/L. En d'autres termes, nous ne connaissons pas la valeur moyenne d'hémoglobine dans la population, mais nous pouvons, avec une probabilité de 95 %, indiquer une plage de valeurs pour ce trait.

Les intervalles de confiance sont particulièrement pertinents pour les différences de moyennes entre les groupes, ou tailles d'effet, comme on les appelle.

Disons que nous comparons l'efficacité de deux préparations à base de fer : une qui est sur le marché depuis longtemps et une qui vient d'être enregistrée. Après le traitement, nous avons évalué la concentration d'hémoglobine dans les groupes de patients étudiés et le programme statistique a calculé que la différence entre les valeurs moyennes des deux groupes était, avec une probabilité de 95 %, comprise entre 1,72 et 14,36 g/l (Tableau 1).

Tableau 1. Test pour des échantillons indépendants
(les groupes sont comparés par taux d'hémoglobine)

Cela doit être interprété comme suit : chez certains patients de la population générale qui prennent un nouveau médicament, l'hémoglobine sera plus élevée en moyenne de 1,72 à 14,36 g/l que chez ceux qui ont pris un médicament déjà connu.

En d'autres termes, dans la population générale, la différence des valeurs moyennes d'hémoglobine entre les groupes se situe dans ces limites avec une probabilité de 95 %. Ce sera au chercheur de juger si c’est beaucoup ou peu. Le point de tout cela est que nous ne travaillons pas avec une valeur moyenne, mais avec une plage de valeurs, nous estimons donc de manière plus fiable la différence d'un paramètre entre les groupes.

Dans les progiciels statistiques, à la discrétion du chercheur, vous pouvez réduire ou élargir indépendamment les limites de l'intervalle de confiance. En abaissant les probabilités de l’intervalle de confiance, nous réduisons l’éventail des moyennes. Par exemple, à un IC de 90   %, la plage des moyennes (ou la différence des moyennes) sera plus étroite qu'à 95   %.

À l’inverse, augmenter la probabilité à 99  % élargit la plage de valeurs. Lors de la comparaison de groupes, la limite inférieure de l'IC peut franchir la barre zéro. Par exemple, si nous élargissons les limites de l’intervalle de confiance à 99  %, alors les limites de l’intervalle s’étendent de –1 à 16 g/l. Cela signifie qu'il existe dans la population générale des groupes dont la différence de moyenne pour la caractéristique étudiée est égale à 0 (M = 0).

À l'aide d'un intervalle de confiance, vous pouvez tester des hypothèses statistiques. Si l’intervalle de confiance dépasse la valeur zéro, alors l’hypothèse nulle, qui suppose que les groupes ne diffèrent pas sur le paramètre étudié, est vraie. L'exemple est décrit ci-dessus où nous avons élargi les limites à 99  %. Quelque part dans la population générale, nous avons trouvé des groupes qui ne différaient en rien.

Intervalle de confiance à 95 % de la différence d'hémoglobine, (g/l)


La figure montre l'intervalle de confiance à 95 % pour la différence des valeurs moyennes d'hémoglobine entre les deux groupes. La droite passe par le zéro, il y a donc une différence entre les moyennes de zéro, ce qui confirme l'hypothèse nulle selon laquelle les groupes ne diffèrent pas. La plage de différence entre les groupes va de –2 à 5 g/L. Cela signifie que l’hémoglobine peut soit diminuer de 2 g/L, soit augmenter de 5 g/L.

L'intervalle de confiance est un indicateur très important. Grâce à lui, vous pouvez voir si les différences entre les groupes étaient réellement dues à la différence de moyennes ou à un grand échantillon, car avec un grand échantillon les chances de trouver des différences sont plus grandes qu'avec un petit.

En pratique, cela pourrait ressembler à ceci. Nous avons pris un échantillon de 1 000 personnes, mesuré les taux d'hémoglobine et constaté que l'intervalle de confiance pour la différence de moyenne variait entre 1,2 et 1,5 g/l. Le niveau de signification statistique dans ce cas p

Nous constatons que la concentration en hémoglobine a augmenté, mais de manière presque imperceptible. La signification statistique est donc apparue précisément en raison de la taille de l'échantillon.

Les intervalles de confiance peuvent être calculés non seulement pour les moyennes, mais aussi pour les proportions (et les risques relatifs). Par exemple, nous nous intéressons à l’intervalle de confiance des proportions de patients ayant obtenu une rémission en prenant un médicament développé. Supposons que l’IC à 95  % pour les proportions, c’est-à-dire pour la proportion de ces patients, se situe dans la plage de 0,60 à 0,80. Ainsi, on peut dire que notre médicament a un effet thérapeutique dans 60 à 80 % des cas.

Souvent, l’évaluateur doit analyser le marché immobilier du segment dans lequel se situe le bien évalué. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, c'est pourquoi un échantillon d'objets est utilisé pour l'analyse. Cet échantillon ne s'avère pas toujours homogène, il faut parfois le débarrasser des points extrêmes - offres de marché trop élevées ou trop basses. A cet effet, il est utilisé Intervalle de confiance. Le but de cette étude est de mener une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de sélectionner l'option de calcul optimale lorsque vous travaillez avec différents échantillons dans le système estimatica.pro.

L'intervalle de confiance est un intervalle de valeurs d'attribut calculé sur la base d'un échantillon qui, avec une probabilité connue, contient le paramètre estimé de la population générale.

L'intérêt du calcul d'un intervalle de confiance est de construire un tel intervalle sur la base de données d'échantillon afin qu'il puisse être déclaré avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance contient la valeur inconnue de la valeur estimée avec une certaine probabilité. Plus l’intervalle est large, plus l’imprécision est grande.

Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous examinerons 2 méthodes :

  • à travers la médiane et l'écart type ;
  • grâce à la valeur critique des statistiques t (coefficient de Student).

Étapes d'analyse comparative des différentes méthodes de calcul de l'IC :

1. constituer un échantillon de données ;

2. nous le traitons à l'aide de méthodes statistiques : nous calculons la valeur moyenne, la médiane, la variance, etc. ;

3. calculer l'intervalle de confiance de deux manières ;

4. analyser les échantillons nettoyés et les intervalles de confiance qui en résultent.

Étape 1. Échantillonnage des données

L'échantillon a été constitué à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres de vente d'appartements d'une pièce dans la 3ème zone de prix avec un agencement de type « Khrouchtchev ».

Tableau 1. Échantillon initial

Prix ​​1 m², unité

Fig. 1. Échantillon initial



Étape 2. Traitement de l'échantillon initial

Le traitement d'un échantillon à l'aide de méthodes statistiques nécessite de calculer les valeurs suivantes :

1. Moyenne arithmétique

2. La médiane est un nombre caractérisant l'échantillon : exactement la moitié des éléments de l'échantillon sont supérieurs à la médiane, l'autre moitié est inférieure à la médiane

(pour un échantillon avec un nombre impair de valeurs)

3. Plage - la différence entre les valeurs maximales et minimales de l'échantillon

4. Variance - utilisé pour estimer plus précisément la variation des données

5. L'écart type de l'échantillon (ci-après - SD) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.

6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement

7. coefficient d'oscillation - reflète la fluctuation relative des valeurs de prix extrêmes dans l'échantillon autour de la moyenne

Tableau 2. Indicateurs statistiques de l'échantillon d'origine

Le coefficient de variation, qui caractérise l'homogénéité des données, est de 12,29 %, mais le coefficient d'oscillation est trop élevé. Ainsi, on peut dire que l’échantillon d’origine n’est pas homogène, passons donc au calcul de l’intervalle de confiance.

Étape 3. Calcul de l'intervalle de confiance

Méthode 1. Calcul utilisant la médiane et l’écart type.

L'intervalle de confiance est déterminé comme suit : valeur minimale - l'écart type est soustrait de la médiane ; valeur maximale - l'écart type est ajouté à la médiane.

Ainsi, l'intervalle de confiance (47 179 CU ; 60 689 CU)

Riz. 2. Valeurs comprises dans l'intervalle de confiance 1.



Méthode 2. Construction d'un intervalle de confiance en utilisant la valeur critique des statistiques t (coefficient de Student)

S.V. Gribovsky dans son livre « Méthodes mathématiques pour estimer la valeur de la propriété » décrit une méthode de calcul de l'intervalle de confiance à l'aide du coefficient de Student. Lors du calcul selon cette méthode, l'estimateur doit lui-même fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Généralement, des niveaux de signification de 0,1 sont utilisés ; 0,05 et 0,01. Elles correspondent à des probabilités de confiance de 0,9 ; 0,95 et 0,99. Avec cette méthode, les vraies valeurs de l'espérance mathématique et de la variance sont supposées pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).

Formule d'intervalle de confiance :

n - taille de l'échantillon ;

La valeur critique des statistiques t (distribution de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé à partir de tableaux statistiques spéciaux ou à l'aide de MS Excel (→"Statistique"→ STUDIST) ;

∝ - niveau de signification, prenons ∝=0,01.

Riz. 2. Valeurs comprises dans l'intervalle de confiance 2.

Étape 4. Analyse des différentes méthodes de calcul de l'intervalle de confiance

Deux méthodes de calcul de l'intervalle de confiance - via la médiane et le coefficient de Student - ont conduit à des valeurs différentes des intervalles. En conséquence, nous avons obtenu deux échantillons nettoyés différents.

Tableau 3. Statistiques pour trois échantillons.

Indice

Échantillon initial

1 possibilité

Option 2

Valeur moyenne

Dispersion

Coef. variantes

Coef. oscillations

Nombre d'objets retirés, pcs.

Sur la base des calculs effectués, nous pouvons dire que les valeurs de l'intervalle de confiance obtenues par différentes méthodes se croisent, vous pouvez donc utiliser n'importe laquelle des méthodes de calcul à la discrétion de l'évaluateur.

Cependant, nous pensons que lorsqu'on travaille dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance en fonction du degré de développement du marché :

  • si le marché est sous-développé, utilisez la méthode de calcul utilisant la médiane et l'écart type, car le nombre d'objets retirés dans ce cas est faible ;
  • si le marché est développé, appliquer le calcul via la valeur critique de la statistique t (coefficient de Student), car il est possible de constituer un large échantillon initial.

Lors de la préparation de l'article, les éléments suivants ont été utilisés :

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques pour évaluer la valeur d'une propriété. Moscou, 2014

2. Données système estimatica.pro

L'intervalle de confiance nous vient du domaine des statistiques. Il s'agit d'une certaine plage qui sert à estimer un paramètre inconnu avec un degré élevé de fiabilité. La façon la plus simple d’expliquer cela est de prendre un exemple.

Supposons que vous deviez étudier une variable aléatoire, par exemple la vitesse de réponse du serveur à une demande client. Chaque fois qu'un utilisateur saisit l'adresse d'un site spécifique, le serveur répond à des vitesses différentes. Ainsi, le temps de réponse étudié est aléatoire. Ainsi, l'intervalle de confiance nous permet de déterminer les limites de ce paramètre, et nous pouvons alors dire qu'avec une probabilité de 95 %, le serveur sera dans la plage que nous avons calculée.

Ou vous devez savoir combien de personnes connaissent la marque de l’entreprise. Lors du calcul de l'intervalle de confiance, on pourra par exemple dire qu'avec une probabilité de 95 % la part des consommateurs qui en sont conscients se situe entre 27 % et 34 %.

La valeur de la probabilité de confiance est étroitement liée à ce terme. Il représente la probabilité que le paramètre souhaité soit inclus dans l'intervalle de confiance. L’étendue de notre plage souhaitée dépend de cette valeur. Plus la valeur est grande, plus l’intervalle de confiance devient étroit, et vice versa. Généralement, il est réglé sur 90 %, 95 % ou 99 %. La valeur 95 % est la plus populaire.

Cet indicateur est également influencé par la dispersion des observations et sa définition repose sur l’hypothèse selon laquelle la caractéristique étudiée obéit, également connue sous le nom de loi de Gauss. Selon lui, la normale est une distribution de toutes les probabilités d'une variable aléatoire continue qui peut être décrite par une densité de probabilité. Si l’hypothèse d’une distribution normale est incorrecte, alors l’estimation peut être incorrecte.

Voyons d’abord comment calculer l’intervalle de confiance pour. Il existe ici deux cas possibles. La dispersion (le degré de propagation d'une variable aléatoire) peut être connue ou non. Si cela est connu, alors notre intervalle de confiance est calculé à l'aide de la formule suivante :

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - signe,

t - paramètre de la table de distribution de Laplace,

σ est la racine carrée de la variance.

Si la variance est inconnue, elle peut alors être calculée si nous connaissons toutes les valeurs de la caractéristique souhaitée. La formule suivante est utilisée pour cela :

σ2 = х2ср - (хср)2, où

х2ср - valeur moyenne des carrés de la caractéristique étudiée,

(хср)2 est le carré de cette caractéristique.

La formule par laquelle l'intervalle de confiance est calculé dans ce cas change légèrement :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - moyenne de l'échantillon,

α - signe,

t est un paramètre trouvé à l'aide de la table de distribution de Student t = t(ɣ;n-1),

sqrt(n) - racine carrée de la taille totale de l'échantillon,

s est la racine carrée de la variance.

Considérez cet exemple. Supposons que, sur la base des résultats de 7 mesures, la caractéristique étudiée soit déterminée égale à 30 et la variance de l'échantillon égale à 36. Il est nécessaire de trouver, avec une probabilité de 99 %, un intervalle de confiance qui contient la vraie valeur du paramètre mesuré.

Tout d'abord, déterminons à quoi t est égal : t = t (0,99 ; 7-1) = 3,71. En utilisant la formule ci-dessus, nous obtenons :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (carré(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

L'intervalle de confiance pour la variance est calculé à la fois dans le cas d'une moyenne connue et lorsqu'il n'y a pas de données sur l'espérance mathématique, et seule la valeur de l'estimation ponctuelle non biaisée de la variance est connue. Nous ne donnerons pas ici de formules pour le calculer, car elles sont assez complexes et, si vous le souhaitez, peuvent toujours être trouvées sur Internet.

Notons seulement qu'il est pratique de déterminer l'intervalle de confiance à l'aide d'Excel ou d'un service réseau, ainsi appelé.

Intervalle de confiance pour l'espérance mathématique - il s'agit d'un intervalle calculé à partir de données qui, avec une probabilité connue, contiennent l'espérance mathématique de la population générale. Une estimation naturelle de l'espérance mathématique est la moyenne arithmétique de ses valeurs observées. Par conséquent, tout au long de la leçon, nous utiliserons les termes « moyenne » et « valeur moyenne ». Dans les problèmes de calcul d'un intervalle de confiance, une réponse la plus souvent requise est quelque chose comme « L'intervalle de confiance du nombre moyen [valeur dans un problème particulier] est de [valeur plus petite] à [valeur plus grande] ». À l'aide d'un intervalle de confiance, vous pouvez évaluer non seulement les valeurs moyennes, mais également la proportion d'une caractéristique particulière dans la population générale. Les valeurs moyennes, la dispersion, l'écart type et l'erreur, grâce auxquels nous arriverons à de nouvelles définitions et formules, sont abordés dans la leçon. Caractéristiques de l'échantillon et de la population .

Estimations ponctuelles et par intervalles de la moyenne

Si la valeur moyenne de la population est estimée par un nombre (point), alors une moyenne spécifique, calculée à partir d'un échantillon d'observations, est considérée comme une estimation de la valeur moyenne inconnue de la population. Dans ce cas, la valeur de la moyenne de l’échantillon – une variable aléatoire – ne coïncide pas avec la valeur moyenne de la population générale. Par conséquent, lorsque vous indiquez la moyenne de l’échantillon, vous devez simultanément indiquer l’erreur d’échantillonnage. La mesure de l’erreur d’échantillonnage est l’erreur type, qui est exprimée dans les mêmes unités que la moyenne. Par conséquent, la notation suivante est souvent utilisée : .

Si l'estimation de la moyenne doit être associée à une certaine probabilité, alors le paramètre d'intérêt dans la population doit être évalué non pas par un nombre, mais par un intervalle. Un intervalle de confiance est un intervalle dans lequel, avec une certaine probabilité P. la valeur de l'indicateur de population estimé est trouvée. Intervalle de confiance dans lequel il est probable P. = 1 - α on trouve la variable aléatoire, calculée comme suit :

,

α = 1 - P., que l’on peut trouver en annexe de presque tous les livres de statistiques.

En pratique, la moyenne et la variance de la population ne sont pas connues, donc la variance de la population est remplacée par la variance de l'échantillon et la moyenne de la population par la moyenne de l'échantillon. Ainsi, l'intervalle de confiance est dans la plupart des cas calculé comme suit :

.

La formule de l'intervalle de confiance peut être utilisée pour estimer la moyenne de la population si

  • l'écart type de la population est connu ;
  • ou l'écart type de la population est inconnu, mais la taille de l'échantillon est supérieure à 30.

La moyenne de l'échantillon est une estimation impartiale de la moyenne de la population. À son tour, la variance de l'échantillon n’est pas une estimation impartiale de la variance de la population. Pour obtenir une estimation impartiale de la variance de la population dans la formule de variance de l'échantillon, la taille de l'échantillon n devrait être remplacé par n-1.

Exemple 1. Des informations ont été collectées auprès de 100 cafés sélectionnés au hasard dans une certaine ville, selon lesquelles le nombre moyen d'employés est de 10,5 avec un écart type de 4,6. Déterminez l'intervalle de confiance à 95 % pour le nombre d'employés du café.

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

Ainsi, l'intervalle de confiance à 95 % pour le nombre moyen d'employés de café variait entre 9,6 et 11,4.

Exemple 2. Pour un échantillon aléatoire d'une population de 64 observations, les valeurs totales suivantes ont été calculées :

somme des valeurs dans les observations,

somme des carrés des écarts des valeurs par rapport à la moyenne .

Calculez l’intervalle de confiance à 95 % pour l’espérance mathématique.

Calculons l'écart type :

,

Calculons la valeur moyenne :

.

Nous substituons les valeurs dans l'expression de l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

On a:

Ainsi, l'intervalle de confiance à 95 % pour l'espérance mathématique de cet échantillon variait de 7,484 à 11,266.

Exemple 3. Pour un échantillon de population aléatoire de 100 observations, la moyenne calculée est de 15,2 et l'écart type est de 3,2. Calculez l'intervalle de confiance à 95 % pour la valeur attendue, puis l'intervalle de confiance à 99 %. Si la puissance de l’échantillon et sa variation restent inchangées et que le coefficient de confiance augmente, l’intervalle de confiance se rétrécira-t-il ou s’élargira-t-il ?

Nous substituons ces valeurs dans l'expression de l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

On a:

.

Ainsi, l'intervalle de confiance à 95 % pour la moyenne de cet échantillon variait de 14,57 à 15,82.

Nous substituons à nouveau ces valeurs dans l'expression de l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,01 .

On a:

.

Ainsi, l'intervalle de confiance à 99 % pour la moyenne de cet échantillon variait de 14,37 à 16,02.

Comme nous le voyons, à mesure que le coefficient de confiance augmente, la valeur critique de la distribution normale standard augmente également et, par conséquent, les points de début et de fin de l'intervalle sont situés plus loin de la moyenne, et donc l'intervalle de confiance pour l'espérance mathématique augmente .

Estimations ponctuelles et d'intervalles de la gravité spécifique

La part de certains attributs de l'échantillon peut être interprétée comme une estimation ponctuelle de la part p de même caractéristique dans la population générale. Si cette valeur doit être associée à une probabilité, alors l'intervalle de confiance de la densité spécifique doit être calculé p caractéristique dans la population avec probabilité P. = 1 - α :

.

Exemple 4. Dans certaines villes, il y a deux candidats UN Et B sont candidats à la mairie. 200 habitants de la ville ont été interrogés au hasard, dont 46 % ont répondu qu'ils voteraient pour le candidat UN, 26% - pour le candidat B et 28 % ne savent pas pour qui ils voteront. Déterminer l'intervalle de confiance de 95 % pour la proportion d'habitants de la ville soutenant le candidat UN.