С помощью коэффициента детерминации можно оценить уровень. Смотреть страницы где упоминается термин коэффициент детерминации

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Коэффициент детерминации

Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно - это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

где - условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

где -сумма квадратов остатков регрессии, - фактические и расчетные значения объясняемой переменной.

Общая сумма квадратов.

В случае линейной регрессии с константой , где - объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае - коэффициент детерминации - это доля объяснённой суммы квадратов в общей :

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.

2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика для линейной регрессии имеет асимптотическое распределение , где - количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика имеет точное (для выборок любого объёма) распределение Фишера (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостаток и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые факторы, где n - количество наблюдений, а k - количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли". Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели . Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
, где k - количество параметров модели.
BIC или SC - байесовский информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, - проектор на плоскость X, , где - единичный вектор nx1.

с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания

Ссылки

  • Прикладная эконометрика (журнал)

Wikimedia Foundation . 2010 .

  • Коэффициент де Ритиса
  • Коэффициент естественной освещённости

Смотреть что такое "Коэффициент детерминации" в других словарях:

    КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ - оценка качества (объясняющей способности) уравнения регрессии, доля дисперсии объясненной зависимой переменной у: R2= 1 Sum(yi yzi)2 / Sum(yi y)2 , где yi наблюдаемое значение зависимой переменной y, yzi значение зависимой переменной,… … Социология: Энциклопедия

    Коэффициент детерминации - квадрат коэффициента линейной корреляции Пирсона, интерпретируется как доля дисперсии зависимой переменной, объясненной посредством независимой переменной … Социологический словарь Socium

    Коэффициент детерминации - Мера того, насколько хорошо соотносятся зависимые и независимые переменные в регрессивном анализе. Например, процент от изменения доходности актива, объясняемый доходностью рыночного портфеля … Инвестиционный словарь

    Коэффициент детерминации - (COEFFICIENT OF DETERMINATION) определяется при построении линейной регрессионной зависимости. Равен доле дисперсии зависимой переменной, связанной с вариаций независимой переменной … Финансовый глоссарий

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

Отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R 2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

где yi - наблюдаемое значение зависимой переменной, а fi - значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной.

[править]Проблемы и общие свойства R 2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Количественная мера тесноты связи

Качественная характеристика силы связи

Умеренная

Заметная

Весьма высокая

Функциональная связь возникает при значении равном 1, а отсутствие связи - 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R 2.

Линейная множественная МНК регрессия имеет следующие общие свойства :

1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2. С увеличением количества объясняющих переменных увеличивается R 2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами:

1. принимает значения из интервала (отрезка) .

2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2. А в случае множественной МНК регрессии R 2 = r (y ;f )2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

3. R 2 можно разложить по вкладу каждого фактора в значение R 2, причём вклад каждого такого фактора будет положительным. Используется разложение: , где r 0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.

4. R 2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина имеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R 2, , Быль" href="/text/category/bilmz/" rel="bookmark">быль проверено или сопоставлено с использованием R 2 и его модификаций.

[править]Решение проблем или модификации R 2

[править]R 2-скорректированный (adjusted)

Для того, чтобы исследователи не увеличивали R 2 с помощью добавления посторонних факторов, R 2 заменяется на скорректированный https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23 src=">, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных .
Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, P (X ) = X * (X " * X ) − 1 * X " - проектор на плоскость X, https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23">с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R 2-истинный (несмещённый)

<---Будет добавлен---!>

[править]Прочие используемые критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу).

[править]См. также

§ Коэффициент корреляции

§ Корреляция

§ Мультиколлинеарность

§ Дисперсия случайной величины

§ Метод группового учета аргументов

§ Регрессионный анализ

[править]Примечания

1. 1 2 , Эконометрика. Начальный курс.. - 6,7,8-е изд., доп. и перераб.. - Москва: Дело, 2004. - Т. "". - 576 с. - ISBN -X

2. 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы . - Москва: ЦЕМИ РАН, 2002. - В. 3. - Т. 38. - С. 107-120.

3. , Прикладная статистика. Основы эконометрики (в 2-х т.). - ??. - Москва: Юнити-Дана (проект TASIS), 2001. - Т. "1,2". - 1088 с. - ISBN -8

4. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. - Москва: Маркет ДС, 2008. - В. 4. - Т. 12. - С. 71-83.

[править]Ссылки

§ Глоссарий статистических терминов

§ Прикладная эконометрика (журнал)

Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы:

· – общая сумма квадратов отклонений зависимой переменной от средней (TSS );

· – сумма квадратов, обусловленная регрессией (RSS );

· – сумма квадратов, характеризующая влияние неучтенных факторов (ESS ).

Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство

Исходя из этого равенства, вводился коэффициент детерминации

. (6.22)

В силу определения R 2 принимает значения между 0 и 1, . Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные , тем теснее наблюдения примыкают к линии регрессии. Если R 2 =1, то эмпирические точки (x i ,y i) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость . Если R 2 =0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных . Величина R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной .

Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется , т.е. . В связи с этим может получиться, что или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R 2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии.

На практике обычно в качестве коэффициента детерминации принимается величина

Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки.

Замечание. Величину R 2 для нелинейных моделей иногда называют индексом детерминации , корень из данной величины R называют индексом корреляции.

Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z =1/x или z =lnx .



Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае линейный коэффициент корреляции по преобразованным значениям даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции.

Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений R yx и или R yx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии .

Коэффициент детерминации можно сравнивать с квадратом коэффициента корреляции для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина ( – ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным.

Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y , поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R 2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y , а в другом – объясненную регрессией долю дисперсии lnY . Если для одной модели коэффициент R 2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R 2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

Более подробно проблемы спецификации рассматриваются в дополнении 3.

Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели . Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.

Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2.

ПРИМЕРЫ

Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y , %) от среднемесячного дохода семьи (X , тыс. $ ):

X
Y 13,4 15,4 16,5 18,6 19,3

Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1:

Табл. 6.1.

x u= lnx y uy u 2 y 2 A
9,88 0,12 1,241 0,0154
0,693 13,4 9,29 0,48 179,56 13,43 -0,03 0,232 0,0010
1,099 15,4 16,92 1,21 237,16 15,51 -0,11 0,718 0,0122
1,386 16,5 22,87 1,92 272,25 16,99 -0,49 2,946 0,2363
1,609 18,6 29,94 2,59 345,96 18,13 0,47 2,524 0,2203
1,792 19,1 34,22 3,21 364,81 19,07 0,03 0,180 0,0012
Итого 6,579 113,24 9,41 1499,74 7,840 0,4864
Среднее значение 3,5 1,097 15,5 18,87 1,57 249,96 1,307

В соответствии с формулами (6.103) вычисляем

, .

В результате, получим уравнение полулогарифмической регрессии:

Подставляя в уравнение (6.24) фактические значения x i , получаем теоретические значения результата . Используя программу Excel ,

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,9958
R -квадрат 0,9916
Нормированный R -квадрат 0,9896
Стандартная ошибка 0,3487
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 57,75 57,75 474,93 0,000026
Остаток 0,49 0,12
Итого 58,24
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 9,8759 0,2947 33,51 0,0000047 9,0576 10,6942
Переменная lnX 5,1289 0,2353 21,79 0,0000262 4,4755 5,7823

Из этих данных видно, в частности, что все коэффициенты регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации

,

т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо.

Вычислим теперь средний коэффициент эластичности

Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% .

Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем

И .

Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y , т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные.

Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем

, .

Поскольку F набл >F крит , то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым. â

Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.

. Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t =1 для января 2000 г.), получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,846
R -квадрат 0,716
Нормированный R -квадрат 0,675
Стандартная ошибка 12,233
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 2640,07 2640,07 17,64 0,00403
Остаток 1047,58 149,65
Итого 3687,64
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 410,12 8,89 46,15 5,87E-10 389,11 431,14
Переменная X 1 -6,63 1,58 -4,20 4,03E-03 -10,37 -2,90

,



причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила: млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05):

.

Точность прогноза составила .

б) Линеаризуем модель, полагая v =1/y . Составляем расчётную таблицу.

Месяцы t y v= 1/y tv t 2 v 2
Январь 387,6 0,00258 0,0026 0,0000067 0,00247 0,0001134 0,00000001286
Февраль 399,9 0,00250 0,0050 0,0000063 0,00252 -0,0000145 0,00000000021
Март 404,0 0,00248 0,0074 0,0000061 0,00256 -0,0000885 0,00000000783
Апрель 383,1 0,00261 0,0104 0,0000068 0,00261 -0,0000020 0,00000000000
Май 376,9 0,00265 0,0133 0,0000070 0,00266 -0,0000076 0,00000000006
Июнь 377,7 0,00265 0,0159 0,0000070 0,00271 -0,0000618 0,00000000382
Июль 358,1 0,00279 0,0195 0,0000078 0,00276 0,0000345 0,00000000119
Август 371,9 0,00269 0,0215 0,0000072 0,00281 -0,0001177 0,00000001385
Сентябрь 333,4 0,00300 0,0270 0,0000090 0,00286 0,0001442 0,00000002081
Итого: 3392,6 0,02395 0,1227 0,0000639 0,02395 0,00000006063
Среднее 376,96 0,002661 0,0136 31,67 0,0000071

Вычисляем

В результате, получим уравнение обратной регрессии:

.

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,41557E-07 1,41557E-07 16,34 0,00492
Остаток 6,06323E-08 8,66176E-09
Итого 2,02189E-07
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 0,002418 6,76E-05 35,76 3,47E-09 0,00226 0,00258
Переменная lnX 0,0000486 1,20E-05 4,04 0,00492 2,02E-05 7,70E-05

R 2 =0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к обратным значениям 1/y

t y A
387,6 405,42 -17,821 317,58 113,30 810,26 4,60
399,9 397,59 2,309 5,33 526,45 425,83 0,58
404,0 390,06 13,942 194,37 731,40 171,68 3,45
383,1 382,81 0,294 0,09 37,75 34,22 0,08
376,9 375,82 1,082 1,17 0,00 1,29 0,29
377,7 369,08 8,620 74,30 0,55 62,02 2,28
358,1 362,58 -4,480 20,07 355,53 206,64 1,25
371,9 356,31 15,595 243,19 25,56 426,43 4,19
333,4 350,24 -16,844 283,71 1897,09 713,52 5,05
3392,6 2,696 1139,81 3687,64 2851,90 21,77
376,96 2,42

.

Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными .

Отсюда, в частности, следует, что равенство не выполняется. Действительно,

В связи с этим, для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство.

Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит:

Млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v =1/y , а с y . Переходя к исходной переменной, получим следующий доверительный интервал

.

Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.

в) Оценим МНК коэффициенты обратной модели

,

используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты.

Уравнение регрессии имеет вид

с коэффициентом детерминации R 2 =0,6947. Для сравнений приведем результаты вычислений.

Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами.

г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R 2 =0,716 для линейной модели и R 2 =0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель. â

Пример 6.3. Имеются данные о зависимости расхода топлива (Y , г /на т·км ) от мощности двигателя грузовых автомобилей общего назначения (X , л.с. ):

X
Y

а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8378
R -квадрат 0,7019
Нормированный R -квадрат 0,6688
Стандартная ошибка 12,8383
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 3493,3 3493,3 21,19 0,001284
Остаток 1483,4 164,8
Итого 4976,7
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 103,866 9,993 10,39 0,0000 81,261 126,471
Переменная X -0,3388 0,0736 -4,60 0,0013 -0,5053 -0,1723

Таким образом, линейное уравнение регрессии будет иметь вид

,

причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные.

На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

4,248 4,477 19,022 18,050 20,047 4,4714 0,0059 0,00003 4,248 4,431 18,824 18,050 19,632 4,4714 -0,0406 0,00165 4,317 4,477 19,331 18,641 20,047 4,4119 0,0655 0,00429 4,443 4,331 19,240 19,737 18,755 4,3038 0,0270 0,00073 4,575 4,263 19,501 20,928 18,170 4,1897 0,0730 0,00533 4,745 3,951 18,748 22,514 15,612 4,0427 -0,0914 0,00836 4,787 3,951 18,917 22,920 15,612 4,0059 -0,0547 0,00299 5,011 3,829 19,184 25,106 14,658 3,8132 0,0154 0,00024 5,165 4,143 21,398 26,675 17,166

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8233
R -квадрат 0,6778
Нормированный R -квадрат 0,6420
Стандартная ошибка 0,2653
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,3327 1,3327 18,93 0,001847
Остаток 0,6336 0,0704
Итого 1,9663
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 8,141 0,946 8,609 0,0000123 6,002 10,280
Переменная lnX -0,864 0,198 -4,351 0,0018473 -1,313 -0,415

Качество линеаризованного уравнения довольно высокое (R 2 =0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к их логарифмам lny , а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.

45,295 -0,705 0,50 89,39 261,13 1,56 39,649 -23,351 545,29 89,39 475,50 58,90 38,696 17,696 313,13 1636,57 517,97 45,73 30,182 -4,818 23,21 699,84 977,95 15,96 -12,909 988,03 5038,18 4267,39 157,85 125,18 61,45 14,35

Из таблицы видно, что для данной модели

.

Следовательно, оценки исходной нелинейной модели будут смещёнными.

Для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий .

Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x =70 л.с. расход топлива на 1 т-км составит

Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации.

На основе соображений, изложенных в разделе 3.1, теперь относительно легко найти меру точности оценки регрессии. Мы показали, что общую дисперсию можно разложить на две составляющие - на «необъясненную» дисперсию и дисперсию обусловленную регрессией. Чем больше по сравнению с тем больше общая дисперсия формируется за счет влияния объясняющей переменной х и, следовательно, связь между двумя переменными у их более интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменной х на использовать отношение

Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной х. Чем большую долю в общей дисперсии составляет тем лучше выбранная функция регрессии соответствует эмпирическим данным. Чем меньше эмпирические значения зависимой переменной отклоняются от прямой регрессии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (3.6) - коэффициент детерминации Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей.

Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1:

Если то все эмпирические значения (все точки поля корреляции) лежат на регрессионной прямой. Это означает, что для В этом случае говорят о строгом линейном соотношении (линейной функции) между переменными у их. Если дисперсия, обусловленная регрессией, равна нулю, а

«необъясненная» дисперсия равна общей дисперсии. В этом случае Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменной у от в статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля.

Итак, чем больше приближается к единице, тем лучше определена регрессия.

Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и х (в отличие от параметров регрессии). Коэффициент не реагирует на преобразование переменных.

Приведем некоторые модификации формулы (3.6), которые, с одной стороны, будут способствовать пониманию сущности коэффициента детерминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для в (3.6) и принимая во внимание (1.8) и (3.1), получим:

Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (3.6), пропорциональна дисперсии переменной х, так как является оценкой параметра регрессии.

Подставив вместо его выражение (2.26) и учитывая определения дисперсий а также средних х и у, получим формулу коэффициента детерминации, удобную для вычисления:

Из (3.9) следует, что всегда С помощью (3.9) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (3.9) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими

переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации. Эта проблема будет обсуждаться в разделе 8.6.

Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение между у и х, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии:

Легко убедиться в том, что

Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (3.11).

Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий.

Вычислим коэффициент детерминации по данным примера из раздела 2.4 (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (3.9), а промежуточные результаты вычислений заимствуем из табл. 3:

Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной х почти полностью объясняет вариацию переменной у.

Для этого примера коэффициент неопределенности т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ.

Вычислим коэффициент детерминации по данным примера из раздела 2.5 (зависимость объема производства от основных фондов). Необходимые

промежуточные результаты вычислений приведены в разделе 2.5 при определении оценок коэффициентов регрессии:

Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%.

Следует отметить, что приведенные в данном разделе формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема . В этом случае вычисляют исправленный коэффициент детерминации учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случая объясняющих переменных будет приведена в следующем разделе. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии