Как рассчитать дисперсию зная среднюю. Остаточная дисперсия

.

Обратно, если - неотрицательная п.в. функция, такая что , то существует абсолютно непрерывная вероятностная мера на такая, что является её плотностью.

    Замена меры в интеграле Лебега:

,

где любая борелевская функция, интегрируемая относительно вероятностной меры .

Дисперсия, виды и свойства дисперсии Понятие дисперсии

Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда):

где n - частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 2. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 3. Нахождение дисперсии в дискретном ряду

Пример 4. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака; X min–минимальное значение группировочного признака; n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 - 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X"i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала; А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой; m1 - квадрат момента первого порядка; m2 - момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя; ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Основными обобщающими показателями вариации в статистике являются дисперсии и среднее квадратическое отклонение.

Дисперсия  это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Дисперсия обычно называется средним квадратом отклонений и обозначается  2 . В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:

 дисперсия невзвешенная (простая);

 дисперсия взвешенная.

Среднее квадратическое отклонение  это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т. д.).

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается :

 среднее квадратическое отклонение невзвешенное;

 среднее квадратическое отклонение взвешенное.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает всю представляемую совокупность.

Вычислению среднего квадратического отклонения предшествует расчет дисперсии.

Порядок расчета дисперсии взвешенной следующий:

1) определяют среднюю арифметическую взвешенную:

2) рассчитывают отклонения вариантов от средней:

3) возводят в квадрат отклонение каждого варианта от средней:

4) умножают квадраты отклонений на веса (частоты):

5) суммируют полученные произведения:

6) полученную сумму делят на сумму весов:

Пример 2.1

Исчислим среднюю арифметическую взвешенную:

Значения отклонений от средней и их квадратов представлены в таблице. Определим дисперсию:

Среднее квадратическое отклонение будет равно:

Если исходные данные представлены в виде интервального ряда распределения , то сначала нужно определить дискретное значение признака, а затем применить изложенный метод.

Пример 2.2

Покажем расчет дисперсии для интервального ряда на данных о распределении посевной площади колхоза по урожайности пшеницы.

Средняя арифметическая равна:

Исчислим дисперсию:

6.3. Расчет дисперсии по формуле по индивидуальным данным

Техника вычисления дисперсии сложна, а при больших значениях вариантов и частот может быть громоздкой. Расчеты можно упростить, используя свойства дисперсии.

Дисперсия имеет следующие свойства.

1. Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсию не изменяет.

2. Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсию не изменяет.

3. Уменьшение или увеличение каждого значения признака в какое-то число раз k соответственно уменьшает или увеличивает дисперсию в k 2 раз, а среднее квадратическое отклонение  в k раз.

4. Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величинами:

Если А  0, то приходим к следующему равенству:

т. е. дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими.

Порядок расчета дисперсии простой:

1) определяют среднюю арифметическую :

2) возводят в квадрат среднюю арифметическую:

3) возводят в квадрат отклонение каждого варианта ряда:

х i 2 .

4) находят сумму квадратов вариантов:

5) делят сумму квадратов вариантов на их число, т. е. определяют средний квадрат:

6) определяют разность между средним квадратом признака и квадратом средней:

Пример 3.1 Имеются следующие данные о производительности труда рабочих:

Произведем следующие расчеты:

Среди множества показателей, которые применяются в статистике, нужно выделить расчет дисперсии. Следует отметить, что выполнение вручную данного вычисления – довольно утомительное занятие. К счастью, в приложении Excel имеются функции, позволяющие автоматизировать процедуру расчета. Выясним алгоритм работы с этими инструментами.

Дисперсия – это показатель вариации, который представляет собой средний квадрат отклонений от математического ожидания. Таким образом, он выражает разброс чисел относительно среднего значения. Вычисление дисперсии может проводиться как по генеральной совокупности, так и по выборочной.

Способ 1: расчет по генеральной совокупности

Для расчета данного показателя в Excel по генеральной совокупности применяется функция ДИСП.Г . Синтаксис этого выражения имеет следующий вид:

ДИСП.Г(Число1;Число2;…)

Всего может быть применено от 1 до 255 аргументов. В качестве аргументов могут выступать, как числовые значения, так и ссылки на ячейки, в которых они содержатся.

Посмотрим, как вычислить это значение для диапазона с числовыми данными.


Способ 2: расчет по выборке

В отличие от вычисления значения по генеральной совокупности, в расчете по выборке в знаменателе указывается не общее количество чисел, а на одно меньше. Это делается в целях коррекции погрешности. Эксель учитывает данный нюанс в специальной функции, которая предназначена для данного вида вычисления – ДИСП.В. Её синтаксис представлен следующей формулой:

ДИСП.В(Число1;Число2;…)

Количество аргументов, как и в предыдущей функции, тоже может колебаться от 1 до 255.


Как видим, программа Эксель способна в значительной мере облегчить расчет дисперсии. Эта статистическая величина может быть рассчитана приложением, как по генеральной совокупности, так и по выборке. При этом все действия пользователя фактически сводятся только к указанию диапазона обрабатываемых чисел, а основную работу Excel делает сам. Безусловно, это сэкономит значительное количество времени пользователей.

Наряду с изучением вариации признака по всей по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.
Выделяют дисперсию общую, межгрупповую и внутригрупповую .
Общая дисперсия σ 2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию, .

Межгрупповая дисперсия (δ) характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
.

Внутригрупповая дисперсия (σ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она вычисляется по формуле:
.

Средняя из внутригрупповых дисперсий : .

Существует закон, связывающий 3 вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии: .
Данное соотношение называют правилом сложения дисперсий .

В анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации (η 2): .
Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (η) :
.
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1.
Покажем его практическое использование на следующем примере (табл. 1).

Пример №1 . Таблица 1 - Производительность труда двух групп рабочих одного из цехов НПО «Циклон»

Рассчитаем общую и групповые средние и дисперсии:




Исходные данные для вычисления средней из внутригрупповых и межгрупповой дисперсии представлены в табл. 2.
Таблица 2
Расчет и δ 2 по двум группам рабочих.


Группы рабочих
Численность рабочих, чел. Средняя, дет./смен. Дисперсия

Прошедшие техническое обучение

5 95 42,0

Не прошедшие техническое обучение

5 81 231,2

Все рабочие

10 88 185,6
Рассчитаем показатели. Средняя из внутригрупповых дисперсий:
.
Межгрупповая дисперсия

Общая дисперсия:
Таким образом, эмпирическое корреляционное соотношение: .

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается посредством вычисления следующих видов дисперсий:

Внутригрупповая дисперсия доли определяется по формуле

где n i – численность единиц в отдельных группах.
Доля изучаемого признака во всей совокупности, которая определяется по формуле:
Три вида дисперсии связаны между собой следующим образом:
.

Это соотношение дисперсий называется теоремой сложения дисперсий доли признака.

Дисперсией (рассеянием) случайной величины называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания:

Для вычисления дисперсии можно использовать слегка преобразованную формулу

так как М(Х) , 2 и
– постоянные величины. Таким образом,

4.2.2. Свойства дисперсии

Свойство 1. Дисперсия постоянной величины равна нулю. Действительно, по определению

Свойство 2. Постоянный множитель можно выносить за знак дисперсии с возведением его в квадрат.

Доказательство

Центрированной случайной величиной называется отклонение случайной величины от ее математического ожидания:

Центрированная величина обладает двумя удобными для преобразования свойствами:

Свойство 3. Если случайные величины Х иY независимы, то

Доказательство . Обозначим
. Тогдаи.

Во втором слагаемом в силу независимости случайных величин и свойств центрированных случайных величин

Пример 4.5. Еслиa иb – постоянные, тоD(a Х+ b )= D (a Х)+ D (b )=
.

4.2.3. Среднее квадратическое отклонение

Дисперсия, как характеристика разброса случайной величины, имеет один недостаток. Если, например, Х – ошибка измерения имеет размерность ММ , то дисперсия имеет размерность
. Поэтому часто предпочитают пользоваться другой характеристикой разброса –средним квадратическим отклонением , которое равно корню квадратному из дисперсии

Среднее квадратическое отклонение имеет ту же размерность, что и сама случайная величина.

Пример 4.6. Дисперсия числа появления события в схеме независимых испытаний

Производится n независимых испытаний и вероятность появления события в каждом испытании равнар . Выразим, как и прежде, число появления событияХ через число появления события в отдельных опытах:

Так как опыты независимы, то и связанные с опытами случайные величины независимы. А в силу независимостиимеем

Но каждая из случайных величин имеет закон распределения (пример 3.2)

и
(пример 4.4). Поэтому, по определению дисперсии:

где q =1- p .

В итоге имеем
,

Среднее квадратическое отклонение числа появлений события в n независимых опытах равно
.

4.3. Моменты случайных величин

Помимо уже рассмотренных случайные величины имеют множество других числовых характеристик.

Начальным моментом k Х (
) называется математическое ожиданиеk -й степени этой случайной величины.

Центральным моментом k -го порядка случайной величиныХ называется математическое ожиданиеk -ой степени соответствующей центрированной величины.

Легко видеть, что центральный момент первого порядка всегда равен нулю, центральный момент второго порядка равен дисперсии, так как .

Центральный момент третьего порядка дает представление об асимметрии распределения случайной величины. Моменты порядка выше второго употребляются сравнительно редко, поэтому мы ограничимся только самими понятиями о них.

4.4. Примеры нахождения законов распределения

Рассмотрим примеры нахождения законов распределения случайных величин и их числовых характеристик.

Пример 4.7.

Составить закон распределения числа попаданий в цель при трех выстрелах по мишени, если вероятность попадания при каждом выстреле равна 0,4. Найти интегральную функцию F (х) для полученного распределения дискретной случайной величиныХ и начертить ее график. Найти математическое ожиданиеM (X ) , дисперсиюD (X ) и среднее квадратическое отклонение
(Х ) случайной величиныX .

Решение

1) Дискретная случайная величина Х – число попаданий в цель при трех выстрелах – может принимать четыре значения:0, 1, 2, 3 . Вероятность того, что она примет каждое из них, найдем по формуле Бернулли при:n =3,p =0,4,q =1- p =0,6 иm =0, 1, 2, 3:

Получим вероятности возможных значений Х :;

Составим искомый закон распределения случайной величины Х :

Контроль: 0,216+0,432+0,288+0,064=1.

Построим многоугольник распределения полученной случайной величины Х . Для этого в прямоугольной системе координат отметим точки (0; 0,216), (1; 0,432), (2; 0,288), (3; 0,064). Соединим эти точки отрезками прямых, полученная ломаная и есть искомый многоугольник распределения (рис. 4.1).

2) Если х0, то F (х) =0. Действительно, значений, меньших нуля, величина Х не принимает. Следовательно, при всех х 0 , пользуясь определениемF (х) , получим F (х) =P (X < x ) =0 (как вероятность невозможного события).

Если 0, тоF (X ) =0,216. Действительно, в этом случаеF (х) =P (X < x ) = =P (- < X0)+ P (0< X < x ) =0,216+0=0,216.

Если взять, например, х =0,2, тоF (0,2)=P (X <0,2) . Но вероятность событияХ <0,2 равна 0,216, так как случайная величинаХ лишь в одном случае принимает значение меньшее 0,2, а именно0 с вероятностью 0,216.

Если 1, то

Действительно, Х может принять значение 0 с вероятностью 0,216 и значение 1 с вероятностью 0,432; следовательно, одно из этих значений, безразлично какое,Х может принять (по теореме сложения вероятностей несовместных событий) с вероятностью 0,648.

Если 2, то рассуждая аналогично, получимF (х) =0,216+0,432 + + 0,288=0,936. Действительно, пусть, например,х =3. ТогдаF (3)=P (X <3) выражает вероятность событияX <3 – стрелок сделает меньше трех попаданий, т.е. ноль, один или два. Применяя теорему сложения вероятностей, получим указанное значение функцииF (х) .

Если x >3, тоF (х) =0,216+0,432+0,288+0,064=1. Действительно, событиеX
является достоверным и вероятность его равна единице, аX >3 – невозможным. Учитывая, что

F (х) =P (X < x ) =P (X3) + P (3< X < x ) , получим указанный результат.

Итак, получена искомая интегральная функция распределения случайной величины Х:

F (x ) =

график которой изображен на рис. 4.2.

3) Математическое ожидание дискретной случайной величины равно сумме произведений всех возможных значений Х на их вероятности:

М(Х) =0=1,2.

То есть, в среднем происходит одно попадание в цель при трех выстрелах.

Дисперсию можно вычислить, исходя из определения дисперсии D (X )= M (X - M (X )) или воспользоваться формулойD (X )= M (X
, которая ведет к цели быстрее.

Напишем закон распределения случайной величины Х:

Найдем математическое ожидание для Х :

М(Х) = 04
= 2,16.

Вычислим искомую дисперсию:

D (X ) = M (X) – (M (X )) = 2,16 – (1,2)= 0,72.

Среднее квадратическое отклонение найдем по формуле

(X ) =
= 0,848.

Интервал (M - ; M + ) = (1,2-0,85; 1,2+0,85) = (0,35; 2,05) – интервал наиболее вероятных значений случайной величиныХ , в него попадают значения 1 и 2.

Пример 4.8.

Дана дифференциальная функция распределения (функция плотности) непрерывной случайной величины Х :

f (x ) =

1) Определить постоянный параметр a .

2) Найти интегральную функцию F (x ) .

3) Построить графики функций f (x ) иF (x ) .

4) Найти двумя способами вероятности Р(0,5< X1,5) иP (1,5< X <3,5) .

5). Найти математическое ожидание М(Х) , дисперсиюD (Х) и среднее квадратическое отклонение
случайной величиныХ .

Решение

1) Дифференциальная функция по свойству f (x ) должна удовлетворять условию
.

Вычислим этот несобственный интеграл для данной функции f (x ) :

Подставляя этот результат в левую часть равенства, получим, что а =1. В условии дляf (x ) заменим параметра на 1:

2) Для нахождения F (x ) воспользуемся формулой

.

Если х
, то
, следовательно,

Если 1
то

Если x>2, то

Итак, искомая интегральная функция F (x ) имеет вид:

3) Построим графики функций f (x ) иF (x ) (рис. 4.3 и 4.4).

4) Вероятность попадания случайной величины в заданный интервал (а, b ) вычисляется по формуле
, если известнафункция f (x ), и по формуле P (a < X < b ) = F (b ) – F (a ), если известна функция F (x ).

Найдем
по двум формулам и сравним результаты. По условиюа=0,5; b =1,5; функцияf (X ) задана в пункте 1). Следовательно, искомая вероятность по формуле равна:

Та же вероятность может быть вычислена по формуле b) через приращение полученной в п.2). интегральной функцииF (x ) на этом интервале:

Так какF (0,5)=0.

Аналогично находим

так как F (3,5)=1.

5) Для нахождения математического ожидания М(Х) воспользуемся формулой
Функцияf (x ) задана в решении пункта 1), она равна нулю вне интервала (1,2]:

Дисперсия непрерывной случайной величиныD (Х) определяется равенством

, или равносильным равенством


.

ДлянахожденияD (X ) воспользуемся последней формулой и учтем, что все возможные значенияf (x ) принадлежат интервалу (1,2]:

Среднее квадратическое отклонение
=
=0,276.

Интервал наиболее вероятных значений случайной величины Х равен

(М-
,М+
) = (1,58-0,28; 1,58+0,28) = (1,3; 1,86).