Корреляционный анализ спирмена. Корреляционный анализ по методу Спирмена (ранги Спирмена)

Студента-психолога (социолога, менеджера, управленца и др.) нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых группах.

В математике для описания связей между переменными величинами используют понятие функции F, которая ставит в соответствие каждому определенному значению независимой переменной X определенное значение зависимой переменной Y. Полученная зависимость обозначается как Y=F(X).

При этом виды корреляционных связей между измеренными признаками могут быть различны: так, корреляция бывает линейной и нелинейной, положительной и отрицательной. Она линейна - если с увеличением или уменьшением одной переменной X,вторая переменная Y в среднем либо также растет, либо убывает. Она нелинейна, если при увеличении одной величины характер изменения второй не линеен, а описывается другими законами.

Корреляция будет положительной, если с увеличением переменной X переменная Y в среднем также увеличивается, а если с увеличением X переменная Y имеет в среднем тенденцию к уменьшению, то говорят о наличии отрицательной корреляции. Возможна ситуация, когда между переменными невозможно установить какую-либо зависимость. В этом случае говорят об отсутствии корреляционной связи.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Коэффициент корреляции рангов, предложенный К. Спирменом, относится к непараметрическим показателям связи между переменными, измеренными в ранговой шкале. При расчете этого коэффициента не требуется никаких предположений о характере распределений признаков в генеральной совокупности. Этот коэффициент определяет степень тесноты связи порядковых признаков, которые в этом случае представляют собой ранги сравниваемых величин.

Ранговый коэффициент линейной корреляции Спирмена подсчитывается по формуле:

где n - количество ранжируемых признаков (показателей, испытуемых);
D - разность между рангами по двум переменным для каждого испытуемого;
D2 - сумма квадратов разностей рангов.

Критические значения коэффициента корреляции рангов Спирмена представлены ниже:

Величина коэффициента линейной корреляции Спирмена лежит в интервале +1 и -1. Коэффициент линейной корреляции Спирмена может быть положительным и отрицательным, характеризуя направленность связи между двумя признаками, измеренными в ранговой шкале.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными. Так, в частности, при корреляции переменной величины с самой собой величина коэффициента корреляции будет равна +1. Подобная связь характеризует прямо пропорциональную зависимость. Если же значения переменной X будут распложены в порядке возрастания, а те же значения (обозначенные теперь уже как переменная Y) будут располагаться в порядке убывания, то в этом случае корреляция между переменными Х и Y будет равна точно -1. Такая величина коэффициента корреляции характеризует обратно пропорциональную зависимость.

Знак коэффициента корреляции очень важен для интерпретации полученной связи. Если знак коэффициента линейной корреляции - плюс, то связь между коррелирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина другого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно увеличивается и другой показатель (переменная). Такая зависимость носит название прямо пропорциональной зависимости.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости. При этом выбор переменной, которой приписывается характер (тенденция) возрастания - произволен. Это может быть как переменная X, так и переменная Y. Однако если считается, что увеличивается переменная X, то переменная Y будет соответственно уменьшаться, и наоборот.

Рассмотрим пример корреляции Спирмена.

Психолог выясняет, как связаны между собой индивидуальные показатели готовности к школе, полученные до начала обучения в школе у 11 первоклассников и их средняя успеваемость в конце учебного года.

Для решения этой задачи были проранжированы, во-первых, значения показателей школьной готовности, полученные при поступлении в школу, и, во-вторых, итоговые показатели успеваемости в конце года у этих же учащихся в среднем. Результаты представим в таблице:

Подставляем полученные данные в вышеприведенную формулу, и производим расчет. Получаем:

Для нахождения уровня значимости обращаемся к таблице «Критические значения коэффициента корреляции рангов Спирмена,» в которой приведены критические значения для коэффициентов ранговой корреляции.

Строим соответствующую «ось значимости»:

Полученный коэффициент корреляции совпал с критическим значением для уровня значимости в 1%. Следовательно, можно утверждать, что показатели школьной готовности и итоговые оценки первоклассников связаны положительной корреляционной зависимостью - иначе говоря, чем выше показатель школьной готовности, тем лучше учится первоклассник. В терминах статистических гипотез психолог должен отклонить нулевую (Н0) гипотезу о сходстве и принять альтернативную (Н1) о наличии различий, которая говорит о том, что связь между показателями школьной готовности и средней успеваемостью отлична от нуля.

Корреляция спирмена. Корреляционный анализ по методу спирмена. Ранги спирмена. Коэффициент корреляции Спирмена. Ранговая корреляция Спирмена

Назначение рангового коэффициента корреляции

Метод ранговой корреляции Спирмена позволяет определить тес­ноту (силу) и направление корреляционной связи между двумя призна­ками или двумя профилями {иерархиями) признаков.

Описание метода

Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами значений могут быть:

1) два признака, измеренные в одной и той же группе испытуемых;

2) две индивидуальные иерархии признаков, выявленные у двух испы­туемых по одному и тому же набору признаков (например, личност­ные профили по 16-факторному опроснику Р. Б. Кеттелла, иерархии ценностей по методике Р. Рокича, последовательности предпочтений в выборе из нескольких альтернатив и др.);

3) две групповые иерархии признаков;

4) индивидуальная и групповая иерархии признаков.

Вначале показатели ранжируются отдельно по каждому из признаков. Как правило, меньшему значению признака начисляется меньший ранг.

Рассмотрим случай 1 (два признака). Здесь ранжируются ин­дивидуальные значения по первому признаку, полученные разными ис­пытуемыми, а затем индивидуальные значения по второму признаку.

Если два признака связаны положительно, то испытуемые, имею­щие низкие ранги по одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по одному из призна­ков, будут иметь по другому признаку также высокие ранги. Для под­счета r s необходимо определить разности (d) между рангами, получен­ными данным испытуемым по обоим признакам. Затем эти показатели d определенным образом преобразуются и вычитаются из 1. Чем меньше разности между рангами, тем больше будет r s , тем ближе он будет к +1.

Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет никакого соответствия. Формула составлена так, что вэтом случае r s , окажется близким к 0.

В случае отрицательной корреляции низким рангам испытуемых по одному признаку будут соответствовать высокие ранги по другому признаку, и наоборот.

Чем больше несовпадение между рангами испытуемых по двумя переменным, тем ближе r s к -1.

Рассмотрим случай 2 (два индивидуальных профиля). Здесь ранжируются индивидуальные значения, полученные каждым из 2-х испытуемым по определенному (одинаковому для них обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг - признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в одних и тех же единицах, иначе ранжирование невозможно. Например, невозможно проранжировать показатели по личностному опроснику Кеттелла (16PF ), если они вы­ражены в "сырых" баллах, поскольку по разным факторам диапазоны значений различны: от 0 до 13, от 0 до 20 и от 0 до 26. Мы не мо­жем сказать, какой из факторов будет занимать первое место по выра­женности, пока не приведем все значения к единой шкале (чаще всего это шкала стенов).

Если индивидуальные иерархии двух испытуемых связаны поло­жительно, то признаки, имеющие низкие ранги у одного из них, будут иметь низкие ранги и у другого, и наоборот. Например, если у одного испытуемого фактор Е (доминантность) имеет самый низкий ранг, то иу другого испытуемого он должен иметь низкий ранг, если у одного испытуемого фактор С (эмоциональная устойчивость) имеет высший ранг, то и другой испытуемый должен иметь по этому фактору высокий ранг и т.д.

Рассмотрим случай 3 (два групповых профиля). Здесь ранжи­руются среднегрупповые значения, полученные в 2-х группах испытуе­мых по определенному, одинаковому для двух групп, набору признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.

Рассмотрим случай 4 (индивидуальный и групповой профили). Здесь ранжируются отдельно индивидуальные значения испытуемого исреднегрупповые значения по тому же набору признаков, которые полу­чены, как правило, при исключении этого отдельного испытуемого - он не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и групповой профили.

Во всех четырех случаях значимость полученного коэффициента корреляции определяется по количеству ранжированных значений N. В первом случае это количество будет совпадать с объемом выборки п. Во втором случае количеством наблюдений будет количество признаков, составляющих иерархию. В третьем и четвертом случае N - это также количество сопоставляемых признаков, а не количество испытуемых в группах. Подробные пояснения даны в примерах.

Если абсолютная величина r s достигает критического значения или превышает его, корреляция достоверна.

Гипотезы

Возможны два варианта гипотез. Первый относится к случаю 1, второй - к трем остальным случаям.

Первый вариант гипотез

H 0: Корреляция между переменными А и Б не отличается от нуля.

H 1: Корреляция между переменными А и Б достоверно отличается от нуля.

Второй вариант гипотез

H 0: Корреляция между иерархиями А и Б не отличается от нуля.

H 1: Корреляция между иерархиями А и Б достоверно отличается от нуля.

Графическое представление метода ранговой корреляции

Чаще всего корреляционную связь представляют графически в виде облака точек или в виде линий, отражающих общую тенденцию размещения точек в пространстве двух осей: оси признака А и призна­ка Б (см. Рис. 6.2).

Попробуем изобразить ранговую корреляцию в виде двух рядов ранжированных значений, которые попарно соединены линиями (Рис. 6.3). Если ранги по признаку А и по признаку Б совпадают, то между ними оказывается горизонтальная линия, если ранги не совпадают, то линия становится наклонной. Чем больше несовпадение рангов, тем бо­лее наклонной становится линия. Слева на Рис. 6.3 отображена макси­мально высокая положительная корреляция (r в =+1,0) - практически это "лестница". В центре отображена нулевая корреляция - плетенка с неправильными переплетениями. Все ранги здесь перепутаны. Справа отображена максимально высокая отрицательная корреляция (r s =-1,0) -паутина с правильным переплетением линий.

Рис. 6.3. Графическое представление ранговой корреляции:

а) высокая положительная корреляция;

б) нулевая корреляция;

в) высокая отрицательная корреляция

Ограничения коэффициента ранговой корреляции

1. По каждой переменной должно быть представлено не менее 5 на­блюдений. Верхняя граница выборки определяется имеющимися таб­лицами критических значений (Табл.XVI Приложения 1), а именно N 40.

2. Коэффициент ранговой корреляции Спирмена r s при большом коли­честве одинаковых рангов по одной или обеим сопоставляемым пе­ременным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпа­дающих значений. В случае, если это условие не соблюдается, необ­ходимо вносить поправку на одинаковые ранги. Соответствующая формула дана в примере 4.

Пример 1 - корреляция между двумя признаками

Висследовании, моделирующем деятельность авиадиспетчера (Одерышев Б.С., Шамова Е.П., Сидоренко Е.В., Ларченко Н.Н., 1978), группа испытуемых, студентов физического факультета ЛГУ проходила подготовку перед началом работы на тренажере. Испытуе­мые должны были решать задачи по выбору оптимального типа взлет­но-посадочной полосы для заданного типа самолета. Связано ли коли­чество ошибок, допущенных испытуемыми в тренировочной сессии, с показателями вербального и невербального интеллекта, измеренными по методике Д. Векслера?

Таблица 6.1

Показатели количества ошибок в тренировочной сессии и показатели уровня вербального и невербального интеллекта у студентов-физиков (N=10)

Испытуемый

Количество ошибок

Показатель вербального интеллекта

Показатель невербального интеллекта

Сначала попробуем ответить на вопрос, связаны ли между собой показатели количества ошибок и вербального интеллекта.

Сформулируем гипотезы.

H 0: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем вербального интеллекта не отличается от нуля.

H 1 : Корреляция между показателем количества ошибок в тренировочной сессии и уровнем вербального интеллекта статистически значимо отличается от нуля.

Далее нам необходимо проранжировать оба показателя, Приписы­вая меньшему значению меньший ранг, затем подсчитать разности меж­ду рангами, которые получил каждый испытуемый по двум переменным (признакам), и возвести эти разности в квадрат. Произведем все необ­ходимые расчеты в таблице.

В Табл. 6.2 в первой колонке слева представлены значения по показателю количества ошибок; в следующей колонке - их ранги. В третьей колонке слева представлены значения по показателю вербаль­ного интеллекта; в следующем столбце - их ранги. В пятом слева пред­ставлены разности d между рангом по переменной А (количество оши­бок) и переменной Б (вербальный интеллект). В последнем столбце представлены квадраты разностей - d 2 .

Таблица 6.2

Расчет d 2 для рангового коэффициента корреляции Спирмена r s при сопоставлении показателей количества ошибок и вербального интеллекта у студентов-физиков (N=10)

Испытуемый

Переменная А

количество ошибок

Переменная Б

вербальный интеллект.

d (ранг А -

J 2

Индивидуальные

значения

Индивидуальные

значения

Коэффициент ранговой корреляции Спирмена подсчитывается по формуле:

где d - разность между рангами по двум переменным для каж­дого испытуемого;

N - количество ранжируемых значений, в. данном случае ко­личество испытуемых.

Рассчитаем эмпирическое значение r s:

Полученное эмпирическое значение г s близко к 0. И все же определим критические значения r s при N=10 по Табл. XVI Приложения 1:

Ответ: H 0 принимается. Корреляция между показателем коли­чества ошибок в тренировочной сессии и уровнем вербального интел­лекта не отличается от нуля.

Теперь попробуем ответить на вопрос, связаны ли между собой показатели количества ошибок и невербального интеллекта.

Сформулируем гипотезы.

H 0: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем невербального интеллекта не отличается от 0.

H 1: Корреляция между показателем количества ошибок в тренировочной сессии и уровнем невербального интеллекта статистически значимо отличается от 0.

Результаты ранжирования и сопоставления рангов представлены в Табл. 6.3.

Таблица 6.3

Расчет d 2 для рангового коэффициента корреляции Спирмена r s при сопоставлении показателей количества ошибок и невербального интеллекта у студентов-физиков (N=10)

Испытуемый

Переменная А

количество ошибок

Переменная Е

невербальный интеллект

d (ранг А -

d 2

Индивидуальные

Индивидуальные

значения

значения

Мы помним, что для определения значимости r s неважно, являет­ся ли он положительным или отрицательным, важна лишь его абсолют­ная величина. В данном случае:

r s эмп

Ответ: H 0 принимается. Корреляция между показателем коли­чества ошибок в тренировочной сессии и уровнем невербального интел­лекта случайна, r s не отличается от 0.

Вместе с тем, мы можем обратить внимание на определенную тенденцию отрицательной связи между этими двумя переменными. Возможно, мы смогли бы ее подтвердить на статистически значимом уровне, если бы увеличили объем выборки.

Пример 2 - корреляция между индивидуальными профилями

В исследовании, посвященном проблемам ценностной реориента-ции, выявлялись иерархии терминальных ценностей по методике М. Рокича у родителей и их взрослых детей (Сидоренко Е.В., 1996). Ранги терминальных ценностей, полученные при обследовании пары мать-дочь (матери - 66 лет, дочери - 42 года) представлены в Табл. 6.4. Попытаемся определить, как эти ценностные иерархии коррелиру­ют друг с другом.

Таблица 6.4

Ранги терминальных ценностей по списку М.Рокича в индивидуальных иерархиях матери и дочери

Терминальные ценности

Ранг ценностей в

Ранг ценностей в

d 2

иерархии матери

иерархии дочери

1 Активная деятельная жизнь

2 Жизненная мудрость

3 Здоровье

4 Интересная работа

5 Красота природы и искусство

7 Материально обеспеченная жизнь

8 Наличие хороших и верных друзей

9 Общественное признание

10 Познание

11 Продуктивная жнзнь

12 Развитие

13 Развлечения

14 Свобода

15 Счастливая семейная жизнь

16 Счастье других

17 Творчество

18 Уверенность в себе

Сформулируем гипотезы.

H 0: Корреляция между иерархиями терминальных ценностей матери и дочери не отличается от нуля.

H 1: Корреляция между иерархиями терминальных ценностей матери и дочери статистически значимо отличается от нуля.

Поскольку ранжирование ценностей предполагается самой проце­дурой исследования, нам остается лишь подсчитать разности между рангами 18 ценностей в двух иерархиях. В 3-м и 4-м столбцах Табл. 6.4 представлены разности d и квадраты этих разностей d 2 .

Определяем эмпирическое значение r s по формуле:

где d - разности между рангами по каждой из переменных, в данном случае по каждой из терминальных ценностей;

N - количество переменных, образующих иерархию, в дан­ном случае количество ценностей.

Для данного примера:

По Табл. XVI Приложения 1 определяем критические значения:

Ответ: H 0 отвергается. Принимается H 1 . Корреляция между иерархиями терминальных ценностей матери и дочери статистически значима (р<0,01) и является положительной.

По данным Табл. 6.4 мы можем определить, что основные рас­хождения приходятся на ценности "Счастливая семейная жизнь", "Общественное признание" и "Здоровье", ранги остальных ценностей достаточно близки.

Пример 3 - корреляция между двумя групповыми иерархиями

Джозеф Вольпе в книге, написанной совместно с сыном (Wolpe J., Wolpe D., 1981) приводит упорядоченный перечень из наиболее час­то встречающихся у современного человека "бесполезных", по его обо­значению, страхов, которые не несут сигнального значения и лишь ме­шают полноценно жить и действовать. В отечественном исследовании, проведенном М.Э. Раховой (1994) 32 испытуемых должны были по 10-балльной шкале оценить, насколько актуальным для них является тот или иной вид страха из перечня Вольпе 3 . Обследованная выборка состояла из студентов Гидрометеорологического и Педагогического ин­ститутов Санкт-Петербурга: 15 юношей и 17 девушек в возрасте от 17 до 28 лет, средний возраст 23 года.

Данные, полученные по 10-балльной шкале, были усреднены по 32 испытуемым, и средние проранжированы. В Табл. 6.5 представлены ранговые показатели, полученные Дж. Вольпе и М. Э. Раховой. Сов­падают ли ранговые последовательности 20 видов страха?

Сформулируем гипотезы.

H 0: Корреляция между упорядоченными перечнями видов страха в аме­риканской и отечественных выборках не отличается от нуля.

H 1: Корреляция между упорядоченными перечнями видов страха в аме­риканской и отечественной выборках статистически значимо отли­чается от нуля.

Все расчеты, связанные с вычислением и возведением в квадрат разностей между рангами разных видов страха в двух выборках, пред­ставлены в Табл. 6.5.

Таблица 6.5

Расчет d для рангового коэффициента корреляции Спирмена при со­поставлении упорядоченных перечней видов страха в американской и отечественной выборках

Виды страха

Ранг в американской выборке

Ранг в российской

Страх публичного выступления

Страх полета

Страх совершить ошибку

Страх неудачи

Страх неодобрения

Страх отвержения

Страх злых люден

Страх одиночества

Страх крови

Страх открытых ран

Страх дантиста

Страх уколов

Страх прохождения тестов

Страх полиции ^милиции)

Страх высоты

Страх собак

Страх пауков

Страх искалеченных людей

Страх больниц

Страх темноты

Определяем эмпирическое значение r s:

По Табл. XVI Приложения 1 определяем критические значения г s при N=20:

Ответ: H 0 принимается. Корреляция между упорядоченными перечнями видов страха в американской и отечественной выборках не достигает уровня статистической значимости, т. е. значимо не отличает­ся от нуля.

Пример 4 - корреляция между индивидуальным и среднегрупповым профилями

Выборке петербуржцев в возрасте от 20 до 78 лет (31 мужчина, 46 женщин), уравновешенной по возрасту таким образом, что лица в возрасте старше 55 лет составляли в ней 50% 4 , предлагалось ответить на вопрос: "Какой уровень развития каждого из перечисленных ниже качеств необходим для депутата Городского собрания Санкт-Петербурга?" (Сидоренко Е.В., Дерманова И.Б., Анисимова О.М., Витенберг Е.В., Шульга А.П., 1994). Оценка производилась по 10-балльной шкале. Параллельно с этим обследовалась выборка из депута­тов и кандидатов в депутаты в Городское собрание Санкт-Петербурга (n=14). Индивидуальная диагностика политических деятелей и претен­дентов производилась с помощью Оксфордской системы экспресс-видеодиагностики по тому же набору личностных качеств, который предъявлялся выборке избирателей.

В Табл. 6.6 представлены средние значения, полученные для ка­ждого из качеств в выборке избирателей ("эталонный ряд") и индиви­дуальные значения одного из депутатов Городского собрания.

Попытаемся определить, насколько индивидуальный профиль де­путата К-ва коррелирует с эталонным профилем.

Таблица 6.6

Усредненные эталонные оценки избирателей (п=77) и индивидуальные показатели депутата К-ва по 18 личностным качествам экспресс-видеодиагностики

Наименование качества

Усредненные эталонные оценки избирателей

Индивидуальные показатели депутата К-ва

1. Общий уровень культуры

2. Обучаемость

4. Способность к творчеству нового

5.. Самокритичность

6. Ответственность

7. Самостоятельность

8. Энергия, активность

9. Целеустремленность

10. Выдержка, самообладание

И. Стойкость

12. Личностная зрелость

13. Порядочность

14. Гуманизм

15. Умение общаться с людьми

16. Терпимость к чужому мнению

17. Гибкость поведения

18. Способность производить благоприятное впечатление

Таблица 6.7

Расчет d 2 для рангового коэффициента корреляции Спирмена между эталонным и индивидуальным профилями личностных качеств депутата

Наименование качества

ранг качества в эталонном профиле

Ряд 2: ранг качества в индивидуальном профиле

d 2

1 Ответственность

2 Порядочность

3 Умение общаться с людьми

4 Выдержка, самообладание

5 Общий уровень культуры

6 Энергия, активность

8 Самокритичность

9 Самостоятельность

10 Личностная зрелость

И Целеустремленность

12 Обучаемость

13 Гуманизм

14 Терпимость к чужому мнению

15 Стойкость

16 Гибкость поведения

17 Способность производить благоприятное впечатление

18 Способность к творчеству нового

Как видно из Табл. 6.6, оценки избирателей и индивидуальные показатели депутата варьируют в разных диапазонах. Действительно оценки избирателей были получены по 10-балльной шкале, а индивидуальные показатели по экспресс-видеодиагностике измеряются по 20-ти балльной шкале. Ранжирование позволяет нам перевести обе шкалы измерения в единую шкалу, где единицей измерения будет 1 ранг, а максимальное значение составит 18 рангов.

Ранжирование, как мы помним, необходимо произвести отдельно по каждому ряду значений. В данном случае целесообразно начислять большему значению меньший ранг, чтобы сразу можно было увидеть, на каком месте по значимости (для избирателей) или по выраженности (у депутата) находится то или иное качество.

Результаты ранжирования представлены в Табл. 6.7. Качества перечислены в последовательности, отражающей эталонный профиль.

Сформулируем гипотезы.

H 0: Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, построенным по оценкам избирателей, не от­личается от нуля.

H 1: Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, построенным по оценкам избирателей, стати­стически значимо отличается от нуля. Поскольку в обоих сопоставляемых ранговых рядах присутствуют

группы одинаковых рангов, перед подсчетом коэффициента ранговой

корреляции необходимо внести поправки на одинаковые ранги Т а и Т b :

где а - объем каждой группы одинаковых рангов в ранговом ряду А,

b - объем каждой группы одинаковых рангов в ранговом ряду В.

В данном случае, в ряду А (эталонный профиль) присутствует одна группа одинаковых рангов - качества "обучаемость" и "гуманизм" имеют один и тот же ранг 12,5; следовательно, а =2.

T а =(2 3 -2)/12=0,50.

В ряду В (индивидуальный профиль) присутствует две группы одинаковых рангов, при этом b 1 =2 и b 2 =2.

T a =[(2 3 -2)+(2 3 -2)]/12=1,00

Для подсчета эмпирического значения r s используем формулу

В данном случае:

Заметим, что если бы поправка на одинаковые ранги нами не вносилась, то величина r s была бы лишь на (на 0,0002) выше:

При больших количествах одинаковых рангов изменения г 5 могут оказаться гораздо более существенными. Наличие одинаковых рангов означает меньшую степень дифференцированное™ упорядоченных переменных и, следовательно, меньшую возможность оценить степень связи между ними (Суходольский Г.В., 1972, с.76).

По Табл. XVI Приложения 1 определяем критические значения г, при N=18:

Ответ: Hq отвергается. Корреляция между индивидуальным профилем депутата К-ва и эталонным профилем, отвечающим требова­ниям избирателей, статистически значима (р<0,05) и является положи­тельной.

Из Табл. 6.7 видно, что депутат К-в имеет более низкий ранг по шкалам Умения общаться с людьми и более высокие ранги по шкалам Целеустремленности и Стойкости, чем это предписывается избиратель­ским эталоном. Этими расхождениями, главным образом, и объясняется некоторое снижение полученного r s .

Сформулируем общий алгоритм подсчета r s .

37. Коэффициент ранговой корреляции Спирмена.

С. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Коэффициент ранговой корреляции Спирмена используется в случаях, когда:
- переменные имеют ранговую шкалу измерения;
- распределение данных слишком отличается от нормального или вообще неизвестно;
- выборки имеют небольшой объём (N < 30).

Интерпретация рангового коэффициента корреляции Спирмена не отличается от коэффициента Пирсона, однако его смысл несколько отличен. Чтобы понять различие этих методов и логически обосновать области их применения сравним их формулы.

Коэффициент корреляции Пирсона:

Коэффициент корреляции Спирмена:

Как видим формулы значительно различаются. Сравним формулы

В формуле корреляции Пирсона используется среднее арифметическое и стандартное отклонение коррелируемых рядов, а в формуле Спирмена не используется. Таким образом, для получения адекватного результата по формуле Пирсона, необходимо, чтобы коррелируемые ряды были приближены к нормальному распределению (среднее и стандартное отклонение являются параметрами нормального распределения ). Для формулы Спирмена это не актуально.

Элементом формулы Пирсона является стандартизация каждого ряда в z-шкалу .

Как видим, перевод переменных в Z-шкалу присутствует в формуле коэффициента корреляции Пирсона. Соответственно, для коэффициента Пирсона абсолютно не имеет значение масштаб данных: к примеру, мы можем коррелировать две переменных, одна из которых имеет мин. = 0 и макс. = 1, а вторая мин. = 100 и макс. = 1000. Как бы не различался размах диапазона значений, все они будут переведены в стандартные z-значения одинаковые по своему масштабу.

В коэффициенте Спирмена такой нормализации не происходит, поэтому

ОБЯЗАТЕЛЬНЫМ УСЛОВИЕМ ИСПОЛЬЗОВАНИЯ КОЭФФИЦИЕНТА СПИРМЕНА ЯВЛЯЕТСЯ РАВЕНСТВО РАЗМАХА ДВУХ ПЕРЕМЕННЫХ.

Перед использованием коэффициента Спирмена для рядов данных с различным размахом, необходимо обязательно их ранжировать . Ранжирование приводит к тому, что значения этих рядов приобретают одинаковый минимум = 1 (минимальный ранг) и максимум, равный количеству значений (максимальный, последний ранг = N, т.е. максимальному количеству случаев в выборке).

В каких случаях можно обойтись без ранжирования

Это случаи, когда данные имеют исходно ранговую шкалу . К примеру, тест ценностных ориентаций Рокича.

Также, это случаи, когда количество вариантов значений невелико и в выборке присутствуют фиксированные минимум и максимум. К примеру, в семантическом дифференциале минимум = 1, максимум = 7.

Пример расчета рангового коэффициента корреляции Спирмена

Тест ценностных ориентаций Рокича был проведён на двух выборках Xи Y. Задача: узнать, насколько близки иерархии ценностей данных выборок (буквально – на сколько они похожи).

Полученное значение r=0,747 проверяется по таблице критических значений . Согласно таблице, при N=18, полученное значение достоверно на уровне p<=0,005

Ранговые коэффициенты корреляции по Спирману и Кендалу

Для переменных, принадлежащих к порядковой шкале или для переменных, не подчиняющихся нормальному распределению, а также для переменных принадлежащих к интервальной шкале, вместо коэффициента Пирсона рассчитывается ранговая корреляция по Спирману. Для этого отдельным значениям переменных присваиваются ранговые места, которые впоследствии обрабатываются с помощью соответствующих формул. Чтобы выявить ранговую корреляцию, уберите в диалоговом окне Bivariate Correlations... (Парные корреляции) метку для расчета корреляции по Пирсону, установленную по умолчанию. Вместо этого активируйте расчет корреляции Спирмана. Это расчет даст следующие результаты. Коэффициенты ранговой корреляции весьма близки к соответствующим значениям коэффициентов Пирсона (исходные переменные имеют нормальное распределение).

titkova-matmetody.pdf с. 45

Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление

корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков.

Для подсчета ранговой корреляции необходимо располагать двумя рядами значений,

которые могут быть проранжированы. Такими рядами значений могут быть:

1) два признака, измеренные в одной и той же группе испытуемых;

2) две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же

набору признаков;

3) две групповые иерархии признаков,

4) индивидуальная и групповая иерархии признаков.

Вначале показатели ранжируются отдельно по каждому из признаков.

Как правило, меньшему значению признака начисляется меньший ранг.

В первом случае (два признака) ранжируются индивидуальные значения по первому

признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму

признаку.

Если два признака связаны положительно, то испытуемые, имеющие низкие ранги по

одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по

одному из признаков, будут иметь по другому признаку также высокие ранги. Для подсчета rs

необходимо определить разности (d) между рангами, полученными данным испытуемым по обоим

признакам. Затем эти показатели d определенным образом преобразуются и вычитаются из 1. Чем

меньше разности между рангами, тем больше будет rs, тем ближе он будет к +1.

Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет

никакого соответствия. Формула составлена так, что в этом случае rs окажется близким к 0.

В случае отрицательной корреляции низким рангам испытуемых по одному признаку

будут соответствовать высокие ранги по другому признаку, и наоборот. Чем больше несовпадение

между рангами испытуемых по двум переменным, тем ближе rs к -1.

Во втором случае (два индивидуальных профиля ), ранжируются индивидуальные

значения, полученные каждым из 2-х испытуемым по определенному (одинаковому для них

обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг –

признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в

одних и тех же единицах, иначе ранжирование невозможно. Например, невозможно

проранжировать показатели по личностному опроснику Кеттелла (16PF), если они выражены в

"сырых" баллах, поскольку по разным факторам диапазоны значений различны: от 0 до 13, от 0 до

20 и от 0 до 26. Мы не можем сказать, какой из факторов будет занимать первое место по

выраженности, пока не приведем все значения к единой шкале (чаще всего это шкала стенов).

Если индивидуальные иерархии двух испытуемых связаны положительно, то признаки,

имеющие низкие ранги у одного из них, будут иметь низкие ранги и у другого, и наоборот.

Например, если у одного испытуемого фактор Е (доминантность) имеет самый низкий ранг, то и у

другого испытуемого он должен иметь низкий ранг, если у одного испытуемого фактор С

(эмоциональная устойчивость) имеет высший ранг, то и другой испытуемый должен иметь по

этому фактору высокий ранг и т.д.

В третьем случае (два групповых профиля), ранжируются среднегрупповые значения,

полученные в 2-х группах испытуемых по определенному, одинаковому для двух групп, набору

признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.

В случае 4-ом (индивидуальный и групповой профили), ранжируются отдельно

индивидуальные значения испытуемого и среднегрупповые значения по тому же набору

признаков, которые получены, как правило, при исключении этого отдельного испытуемого – он

не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный

профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и

групповой профили.

Во всех четырех случаях значимость полученного коэффициента корреляции определяется

по количеству ранжированных значений N. В первом случае это количество будет совпадать с

объемом выборки n. Во втором случае количеством наблюдений будет количество признаков,

составляющих иерархию. В третьем и четвертом случае N – это также количество сопоставляемых

признаков, а не количество испытуемых в группах. Подробные пояснения даны в примерах. Если

абсолютная величина rs достигает критического значения или превышает его, корреляция

достоверна.

Гипотезы.

Возможны два варианта гипотез. Первый относится к случаю 1, второй – к трем остальным

Первый вариант гипотез

H0: Корреляция между переменными А и Б не отличается от нуля.

H2: Корреляция между переменными А и Б достоверно отличается от нуля.

Второй вариант гипотез

H0: Корреляция между иерархиями А и Б не отличается от нуля.

H2: Корреляция между иерархиями А и Б достоверно отличается от нуля.

Ограничения коэффициента ранговой корреляции

1. По каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя

граница выборки определяется имеющимися таблицами критических значений.

2. Коэффициент ранговой корреляции Спирмена rs при большом количестве одинаковых

рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале

оба коррелируемых ряда должны представлять собой две последовательности несовпадающих

значений. В случае, если это условие не соблюдается, необходимо вносить поправку на

одинаковые ранги.

Коэффициент ранговой корреляции Спирмена подсчитывается по формуле:

Если в обоих сопоставляемых ранговых рядах присутствуют группы одинаковых рангов,

перед подсчетом коэффициента ранговой корреляции необходимо внести поправки на одинаковые

ранги Та и Тв:

Та = Σ (а3 – а)/12,

Тв = Σ (в3 – в)/12,

где а – объем каждой группы одинаковых рангов в ранговом ряду А, в объем каждой

группы одинаковых рангов в ранговом ряду В.

Для подсчета эмпирического значения rs используют формулу:

38. Точечно-бисериальный коэффициент корреляции.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Пусть переменная X измерена в сильной шкале, а переменная Y – в дихотомической. Точечный бисериальный коэффициент корреляции rpb вычисляется по формуле:

Здесь x 1 – среднее значение по Х объектов со значением «единица» по Y;

x 0 – среднее значение по Х объектов со значением «ноль» по Y;

s х – среднее квадратическое отклонение всех значений по Х;

n 1 – число объектов «единица» по Y, n 0 - число объектов «ноль» по Y;

n = n 1 + n 0 – объем выборки.

Точечный бисериальный коэффициент корреляции можно рассчитать также с помощью других эквивалентных выражений:

Здесь x – общее среднее значение по переменной Х .

Точечный бисериальный коэффициент корреляции rpb изменяется в пределах от –1 до +1. Его значение равно нулю в том случае, если пере-менные с единицей по Y имеют среднее по Y , равное среднему переменных с нулем по Y .

Проверка гипотезы о значимости точечного бисериального коэффициента корреляции заключается в проверке нулевой гипотезы h 0 о равенстве генерального коэффициента корреляции нулю: ρ = 0, которая осуществляется с помощью критерия Стьюдента. Эмпирическое значение

сравнивается с критическими значениями t a (df ) для числа степеней свободы df = n – 2

Если выполняется условие | t | ≤ (df ), нулевая гипотеза ρ = 0 не от-вергается. Точечный биссериальный коэффициент корреляции значимо от-личается от нуля, если эмпирическое значение | t | попадает в критическую область, то есть если выполняется условие | t | > (n – 2). Достоверность связи, рассчитанной с помощью точечного бисериального коэффициента корреляции rpb , можно определить также с помощью критерия χ 2 для числа степеней свободы df = 2.

Точечно-бисериальная корреляция

Последующая модификация коэффициента корреляции произведения моментов получила отражение в точечно бисериальном r . Эта стат. показывает связь между двумя переменными, одна из к-рых предположительно непрерывна и нормально распределена, а др. яв-ся дискретной в точном смысле слова. Точечно-бисериальный коэффициент корреляции обозначается через r pbis Поскольку в r pbis дихотомия отражает подлинную природу дискретной переменной, а не яв-ся искусственной, как в случае r bis , его знак определяется произвольно. Поэтому для всех практ. целей r pbis рассматривается в диапазоне от 0,00 до +1,00.

Существует и такой случай, когда две переменные считаются непрерывными и нормально распределенными, но обе искусственно дихотомизированы, как в случае бисериальной корреляции. Для оценки связи между такими переменными применяется тетрахорический коэффициент корреляции r tet ,к-рый был тж выведен Пирсоном. Осн. (точные) формулы и процедуры для вычисления r tet достаточно сложны. Поэтому при практ. применении этого метода используются приближения r tet ,получаемые на основе сокращенных процедур и таблиц.

/on-line/dictionary/dictionary.php?term=511

ТОЧЕЧНО-БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - это коэффициент корреляции между двумя переменными, одна из которых измерена в дихотомической шкале, а другая – в интервальной шкале. Применяется в классической и современной тестологии как показатель качества тестового задания – надежности-согласованности с общим баллом по тесту.

Для коррелирования переменных, измеренных в дихотомической и интервальной шкале используют точечно-бисериальный коэффициент корреляции .
Точечно-бисериальный коэффициент корреляции - это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:

Где:
m1 и m0 - средние значения Х со значением 1 или 0 по Y.
σx – стандартное отклонение всех значений по Х
n1 ,n0 – количество значений Х с 1 или 0 по Y.
n – общее количество пар значений

Чаще всего данный вид коэффициента корреляции применяется для расчета связи пунктов теста с суммарной шкалой. Это один из видов проверки валидности.

39. Рангово-бисериальный коэффициент корреляции.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

harchenko-korranaliz.pdf с. 28

Рангово-бисериальный коэффициент корреляции, используемый в случаях, когда одна из переменных (Х ) представлена в порядковой шкале, а другая (Y ) – в дихотомической, вычисляется по формуле

.

Здесь – средний ранг объектов, имеющих единицу по Y ; – средний ранг объектов с нулем по Y , n – объем выборки.

Проверка гипотезы о значимости рангово-бисериального коэффи-циента корреляции осуществляется аналогично точечному биссериальному коэффициенту корреляции с помощью критерия Стьюдента с заменой в формулах r pb на r rb .

В тех случаях, когда одна переменная измеряется в дихотомической шкале (переменная X), а другая в ранговой шкале (переменная У), используется рангово-бисериальный коэффициент корреляции. Мы помним, что переменная X, измеренная в дихотомической шкале, принимает только два значения (кода) 0 и 1. Особо подчеркнем: несмотря на то что этот коэффициент изменяется в диапазоне от –1 до +1, его знак для интерпретации результатов не имеет значения. Это еще одно исключение из общего правила.

Расчет этого коэффициента производится по формуле:

где `X 1средний ранг по тем элементам переменной Y , которым соответствует код (признак) 1 в переменной Х ;

`X 0– средний ранг по тем элементам переменной Y, которым соответствует код (признак) 0 в переменной Х\

N – общее количество элементов в переменной X.

Для применения рангово-бисериального коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в разных шкалах: одна X – в дихотомической шкале; другая Y– в ранговой шкале.

2. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

3. Для оценки уровня достоверности рангово-бисериального коэффициента корреляции следует пользоваться формулой (11.9)и таблицей критических значений для критерия Стьюдентапри k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Случаи, когда одна из переменных представлена в дихотомической шкале , а другая в ранговой (порядковой) , требуют применения коэффициента рангово-бисериальной корреляции:

rpb=2 / n * (m1 - m0)

где:
n – число объектов измерения
m1 и m0 - средний ранг объектов с 1 или 0 по второй переменной.
Данный коэффициент также применяется при проверке валидности тестов.

40. Коэффициент линейной корреляции.

О корреляции вообще (и в частности о линейной как раз) см. вопрос № 36 с. 56 (64) 063.JPG

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ г-ПИРСОНА

r -Пирсона (Pearson r ) применяется для изучения взаимосвязи двух метричес- ких переменных, измеренных на одной и той же выборке. Существует множество ситуаций, в которых уместно его применение. Влияет ли интеллект на успе-ваемость на старших курсах университета? Связан ли размер заработной пла-ты работника с его доброжелательностью к коллегам? Влияет ли настроение школьника на успешность решения сложной арифметической задачи? Для ответа на подобные вопросы исследователь должен измерить два интересую-щих его показателя у каждого члена выборки. Данные для изучения взаимо-связи затем сводятся в таблицу, как в приведенном ниже примере.

ПРИМЕР 6.1

В таблице приведен пример исходных данных измерения двух показателей интел-лекта (вербального и невербального) у 20 учащихся 8-го класса.

Связь между этими переменными можно изобразить при помощи диаграммы рас-сеивания (см. рис. 6.3). Диаграмма показывает, что существует некоторая взаимо-связь измеренных показателей: чем больше значения вербального интеллекта, тем (преимущественно) больше значения невербального интеллекта.

Прежде чем дать формулу коэффициента корреляции, попробуем просле-дить логику ее возникновения, используя данные примера 6.1. Положение каждой /-точки (испытуемого с номером /) на диаграмме рассеивания отно-сительно остальных точек (рис. 6.3) может быть задано величинами и знака-ми отклонений соответствующих значений переменных от своих средних ве-личин: (xj - MJ и (у, -М у ). Если знаки этих отклонений совпадают, то это свидетельствует в пользу положительной взаимосвязи (большим значениям по х соответствуют большие значения по у или меньшим значениям по х со-ответствуют меньшие значения по у).

Для испытуемого № 1 отклонение от среднего по х и по у положительное, а для испытуемого № 3 и то и другое отклонения отрицательные. Следовательно, данные того и другого свидетельствуют о положительной взаимосвязи изучаемых призна-ков. Напротив, если знаки отклонений от средних по х и по у различаются, то это будет свидетельствовать об отрицательной взаимосвязи между признаками. Так, для испытуемого № 4 отклонение от среднего по х является отрицательным, по у - положительным, а для испытуемого № 9 - наоборот.

Таким образом, если произведение отклонений (х,- М х ) х (у, - М у ) поло-жительное, то данные /-испытуемого свидетельствуют о прямой (положи-тельной) взаимосвязи, а если отрицательное - то об обратной (отрицатель-ной) взаимосвязи. Соответственно, если х w у ъ основном связаны прямо пропорционально, то большинство произведений отклонений будет поло-жительным, а если они связаны обратным соотношением, то большинство произведений будет отрицательным. Следовательно, общим показателем для силы и направления взаимосвязи может служить сумма всех произведений отклонений для данной выборки:

При прямо пропорциональной связи между переменными эта величина является большой и положительной - для большинства испытуемых откло-нения совпадают по знаку (большим значениям одной переменной соответ-ствуют большие значения другой переменной и наоборот). Если же х и у име-ют обратную связь, то для большинства испытуемых большим значениям одной переменной будут соответствовать меньшие значения другой перемен-ной, т. е. знаки произведений будут отрицательными, а сумма произведений в целом будет тоже большой по абсолютной величине, но отрицательной по знаку. Если систематической связи между переменными не будет наблюдать-ся, то положительные слагаемые (произведения отклонений) уравновесятся отрицательными слагаемыми, и сумма всех произведений отклонений будет близка к нулю.

Чтобы сумма произведений не зависела от объема выборки, достаточно ее усреднить. Но мера взаимосвязи нас интересует не как генеральный параметр, а как вычисляемая его оценка - статистика. Поэтому, как и для формулы дис-персии, в этом случае поступим также, делим сумму произведений отклоне-ний не на N , а на TV- 1. Получается мера связи, широко применяемая в физи-ке и технических науках, которая называется ковариацией (Covahance ):


В психологии, в отличие от физики, большинство переменных измеряют-ся в произвольных шкалах, так как психологов интересует не абсолютное зна-чение признака, а взаимное расположение испытуемых в группе. К тому же ковариация весьма чувствительна к масштабу шкалы (дисперсии), в которой измерены признаки. Чтобы сделать меру связи независимой от единиц изме-рения того и другого признака, достаточно разделить ковариацию на соот-ветствующие стандартные отклонения. Таким образом и была получена фор- мула коэффициента корреляции К. Пирсона:

или, после подстановки выражений для о х и


Если значения той и другой переменной были преобразованы в г-значения по формуле


то формула коэффициента корреляции r-Пирсона выглядит проще (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

КОРРЕЛЯЦИЯ ЛИНЕЙНАЯ - статистическая линейная связь непричинного характера между двумя количественными переменными х и у . Измеряется с помощью "коэффициента К.Л." Пирсона, который является результатом деления ковариации на стандартные отклонения обеих переменных:

,

где s xy - ковариация между переменными х и у ;

s x , s y - стандартные отклонения для переменных х и у ;

x i , y i - значения переменных х и у для объекта с номером i ;

x , y - средние арифметические для переменных х и у .

Коэффициент Пирсона r может принимать значения из интервала [-1; +1]. Значение r = 0 означает отсутствие линейной связи между переменными х и у (но не исключает статистической связи нелинейной). Положительные значения коэффициента (r > 0) свидетельствуют о прямой линейной связи; чем ближе его значение к +1, тем сильнее связь статистическая прямая. Отрицательные значения коэффициента (r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r = ±1 означают наличие полной линейной связи, прямой или обратной. В случае полной связи все точки с координатами (x i , y i ) лежат на прямой y = a + bx .

"Коэффициент К.Л." Пирсона применяется также для измерения тесноты связи в модели регрессии линейной парной.

41. Корреляционная матрица и корреляционный граф.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

Корреляционная матрица. Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен-ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово-дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица (Correlation Matrix ) - это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, изме-ренных в количественной шкале на одной выборке.

ПРИМЕР

Предположим, изучаются связи между 5 переменными (vl, v2,..., v5; P = 5), изме-ренными на выборке численностью N=30 человек. Ниже приведена таблица ис-ходных данных и корреляционная матрица.

И
сходные данные:

Корреляционная матрица:

Нетрудно заметить, что корреляционная матрица является квадратной, симметрич-ной относительно главной диагонали (таккакг,у= /} у), с единицами на главной диа-гонали (так как г и = Гу = 1).

Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагона-ли, так как корреляция х с у равна корреляции у с х. На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляцион-ной матрицы, а те, которые находятся выше или ниже главной диагонали.

Количество коэффициентов корреляции, подлежащих анализу при изучении связей Рпризнаков определяется формулой: Р(Р- 1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 - 1)/2 = 10.

Основная задача анализа корреляционной матрицы - выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд - графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10-15). Другой спо-соб - применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы...»). Применяя факторный или кластерный анализ, можно выделить группиров-ки переменных, которые теснее связаны друг с другом, чем с другими пере-менными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.

Сравнение корреляций - дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), при-меняется метод сравнения для зависимых выборок (с. 148-149). При сравне-нии одноименных корреляций, вычисленных для разных выборок, применя-ется метод сравнения для независимых выборок (с. 147-148).

Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корре-ляционных матриц, полученных для разных выборок (на предмет их одно-родности), являются трудоемкими и выходят за рамки данной книги. Позна-комиться с этими методами можно по книге Г. В. Суходольского 1 .

Проблема статистической значимости корреляций. Проблема заключается в том, что процедура статистической проверки гипотезы предполагает одно- кратное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто слу-чайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы к раз в отношении разных переменных или выборок, то при уста-новленной величине а мы гарантированно получим подтверждение гипоте-зы в ахк числе случаев.

Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15-1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень а = 0, 05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо от того, существует ли связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие - отражают ре-альную связь?

Строго говоря, для принятия статистического решения необходимо умень-шить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффи- циентов корреляций!

Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и прини-мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много-мерных методов (факторного, кластерного или множественного регрессион-ного анализа) - для выделения и последующей интерпретации групп статис-тически значимо связанных переменных.

Проблема пропущенных значений. Если в данных есть пропущенные значе-ния, то возможны два варианта расчета корреляционной матрицы: а) построч-ное удаление значений (Exclude cases listwise ); б) попарное удаление значений (Exclude cases pairwise ). При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра-вильной» корреляционной матрице в том смысле, что все коэффициенты вы-числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу-щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет-ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным под-множествам (например - для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анали-за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффи-циентов. Использование матрицы с «плохими» (смещенными) оценками приводит к тому, что программа либо не в состоянии анализировать такую матри-цу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.

Если попарное исключение пропущенных данных не приводит к какому-либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вы-численные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оцен-ках. Например, если среднее (или стандартное отклонение) значений перемен-ной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с пе-ременной С, то имеются все основания ожидать, что эти две корреляции (А-В нА-С) основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

Анализ корреляционных плеяд. После решения проблемы статистической зна-чимости элементов корреляционной матрицы статистически значимые корре-ляции можно представить графически в виде корреляционной плеяды или пле-яд. Корреляционная плеяда - это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифра-ми - номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда - и /j-уровень значимости связи.

Корреляционная плеяда может отра-жать все статистически значимые связи корреляционной матрицы (иногда называ-ется корреляционным графом ) или только их содержательно выделенную часть (напри-мер, соответствующую одному фактору по результатам факторного анализа).

ПРИМЕР ПОСТРОЕНИЯ КОРРЕЛЯЦИОННОЙ ПЛЕЯДЫ


Подготовка к проведению государственной (итоговой) аттестации выпускников: формирования базы ЕГЭ (общий список участников ЕГЭ всех категорий с указанием предметов) – с учетом резервных дней в случае совпадения предметов;

  • План работы (27)

    Решение

    2. Деятельность ОУ по совершенствованию содержания и оценке качества по предметам естественно-математического образования МОУ СОШ № 4, Литвиновская, Чапаевская,

  • Ранговая корреляция Спирмена (корреляция рангов). Ранговая корреляция Спирмена - самый простой способ определения степени связи между факторами. Название метода свидетельствует о том, что связь определяют между рангами, то есть рядами полученных количественных значений, ранжированных в порядке убывания или возрастания. Надо иметь в виду, что, во-первых, ранговое корреляцию Не рекомендуется проводить, если связь пар меньше четырех и больше двадцати; во-вторых, ранговая корреляция позволяет определять связь и в другом случае, если значение имеют полуколичественный характер, то есть не имеют числового выражения, отражают четкий порядок следования этих величин; в-третьих, ранговое корреляцию целесообразно применять в тех случаях, когда достаточно получить приблизительные данные. Пример расчета коэффициента ранговой корреляции для определения вопрос: замеряют вопросник X и Y подобные личностные качества испытуемых. С помощью двух вопросников (X и Y), которые требуют альтернативных ответов "да" или "нет", получили первичные результаты - ответы 15 испытуемых (N = 10). Результаты подали в виде суммы утвердительных ответов отдельно для вопросника X и для вопросника В. Эти результаты сведены в табл. 5.19.

    Таблица 5.19. Табулирование первичных результатов для расчета коэффициента ранговой корреляции по Спирмену (р) *

    Анализ сводной корреляционной матрицы. Метод корреляционных плеяд.

    Пример. В табл. 6.18 приведены интерпретации одиннадцати переменных, которые тестируют по методике Векслера. Данные получили на однородной выборке в возрасте от 18 до 25 лет (n = 800).

    Перед расслаиванием корреляционную матрицу целесообразно ранжировать. Для этого в исходной матрицы вычисляют средние значения коэффициентов корреляции каждой переменной со всеми остальными.

    Затем по табл. 5.20 определяют допустимые уровни расслоение корреляционной матрицы при заданных доверительной вероятности 0,95 и n - количества

    Таблица 6.20. Восходящая корреляционная матрица

    Переменные 1 2 3 4 бы 0 7 8 0 10 11 M (rij) Ранг
    1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
    2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
    3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
    4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
    5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
    6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
    7 1 0,310 0,388 0,264 0,266 0,310 9
    8 1 0,897 0,363 0,388 0,363 5
    9 1 0,388 0,430 0,846 6
    10 1 0,336 0,310 8
    11 1 0,300 10

    Обозначения: 1 - общая осведомленность; 2 - понятийнисть; 3 - внимательность; 4 - вдатнисть К обобщения; б - непосредственное запоминание (на цифрах) 6 - уровень освоения родном языке; 7 - скорость овладения сенсомоторном навыками (кодирование символами) 8 - наблюдательность; 9 - комбинаторные способности (к анализу и синтезу) 10 - способность к организации частей в осмысленное целое; 11 - способность к эвристического синтеза; M (rij) - среднее значение коэффициентов корреляции переменной с остальными переменных наблюдений (в нашем случае n = 800): r (0) - значение нулевой "Рассекая" плоскости - минимальная значимая абсолютная величина коэффициента корреляции (n - 120, r (0) = 0,236; n = 40, r (0) = 0,407) | Δr | - допустимый шаг расслоения (n = 40, | Δr | = 0,558) в - допустимое количество уровней расслоения (n = 40, s = 1 ; n = 120, s = 2); r (1), r (2), ..., r (9) - абсолютное значение секущей плоскости (n = 40, r (1) = 0,965).

    Для n = 800 находим значение гтип и границ ги после чего Расслаивающая ранжированы корреляционную матрицу, выделяя корреляционные плеяды внутри слоев, или отделяем части корреляционной матрицы, вырисовывая объединения корреляционных плеяд для вышележащих слоев (рис. 5.5).

    Содержательный анализ полученных плеяд выходит за пределы математической статистики. Надо отметить два формальные показатели, которые помогают при содержательной интерпретации плеяд. Одним существенным показателем служит степень вершины, то есть количество ребер, примыкающих к вершине. Переменная с наибольшим количеством ребер является "ядром" плеяды и ее можно рассматривать как индикатор остальных переменных этой плеяды. Другой существенный показатель - плотность связи. Переменная может иметь меньше связей в одной плеяде, но теснее, и больше связей в другой плеяде, однако менее тесных.

    Предсказания и оценки. Уравнение у = b1x + b0 называется общим уравнением прямой. Оно свидетельствует о том, что пары точек (x, y), которые

    Рис. 5.5. Корреляционные плеяды, полученные расслоением матрицы

    лежат на некоторой прямой, связанные так, что для любого значения х величину в в находящегося с ним в паре, можно найти, умножив х на некоторое число b1 добавив вторых, число b0 к этому произведению.

    Коэффициент регрессии позволяет определить степень изменения следственной фактора при изменении причинного фактора на одну единицу. Абсолютные величины характеризуют зависимость между переменными факторами по их абсолютными значениями. Коэффициент регрессии вычисляют по формуле:

    Планирование и анализ экспериментов. Планирование и анализ экспериментов - это третья важная отрасль статистических методов, разработанных для нахождения и проверки причинных связей между переменными.

    Для исследования многофакторных зависимостей в последнее время все чаще используют методы математического планирования эксперимента.

    Возможность одновременного варьирования всеми факторами позволяет: а) уменьшить количество опытов;

    б) свести ошибку эксперимента к минимуму;

    в) упростить обработку полученных данных;

    г) обеспечить наглядность и легкость по сравнению результатов.

    Каждый фактор может приобретать некоторую соответствующее количество различных значений, которые называются уровнями и обозначают -1, 0 и 1. Фиксированный набор уровней факторов определяет условия одного из возможных опытов.

    Совокупность всех возможных сочетаний вычисляют по формуле:

    Полным факторным экспериментом называется эксперимент, в котором реализуются все возможные сочетания уровней факторов. Полные факторные эксперименты могут обладать свойством ортогональности. При ортогональном планировании факторы в эксперименте является некоррелированными, коэффициенты регрессии, которые высчитывают в итоге, определяют независимо друг от друга.

    Важным преимуществом метода математического планирования эксперимента является его универсальность, пригодность во многих областях исследований.

    Рассмотрим пример сравнения влияния некоторых факторов на формирование уровня психического напряжения в регулировщиков цветных телевизоров.

    В основу эксперимента положен ортогональный План 2 три (три фактора изменяются на двух уровнях).

    Эксперимент проводили с полным части 2 +3 с трехкратным повторением.

    Ортогональное планирование базируется на построении уравнения регрессии. Для трех факторов оно выглядит так:

    Обработка результатов в этом примере включает:

    а) построение ортогонального плана 2 +3 таблице для расчета;

    б) вычисления коэффициентов регрессии;

    в) проверку их значимости;

    г) интерпретацию полученных данных.

    Для коэффициентов регрессии упомянутого уравнения надо было поставить N = 2 3 = 8 вариантов, чтобы иметь возможность оценить значимость коэффициентов, где количество повторений К равнялось 3.

    Составлена матрица планирования эксперимента выглядела.

    ​ Коэффициент ранговой корреляции Спирмена – это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

    1. История разработки коэффициента ранговой корреляции

    Данный критерий был разработан и предложен для проведения корреляционного анализа в 1904 году Чарльзом Эдвардом Спирменом , английским психологом, профессором Лондонского и Честерфилдского университетов.

    2. Для чего используется коэффициент Спирмена?

    Коэффициент ранговой корреляции Спирмена используется для выявления и оценки тесноты связи между двумя рядами сопоставляемых количественных показателей . В том случае, если ранги показателей, упорядоченных по степени возрастания или убывания, в большинстве случаев совпадают (большему значению одного показателя соответствует большее значение другого показателя - например, при сопоставлении роста пациента и его массы тела ), делается вывод о наличии прямой корреляционной связи. Если ранги показателей имеют противоположную направленность (большему значению одного показателя соответствует меньшее значение другого - например, при сопоставлении возраста и частоты сердечных сокращений ), то говорят об обратной связи между показателями.

      Коэффициент корреляции Спирмена обладает следующими свойствами:
    1. Коэффициент корреляции может принимать значения от минус единицы до единицы, причем при rs=1 имеет место строго прямая связь, а при rs= -1 – строго обратная связь.
    2. Если коэффициент корреляции отрицательный, то имеет место обратная связь, если положительный, то – прямая связь.
    3. Если коэффициент корреляции равен нулю, то связь между величинами практически отсутствует.
    4. Чем ближе модуль коэффициента корреляции к единице, тем более сильной является связь между измеряемыми величинами.

    3. В каких случаях можно использовать коэффициент Спирмена?

    В связи с тем, что коэффициент является методом непараметрического анализа , проверка на нормальность распределения не требуется.

    Сопоставляемые показатели могут быть измерены как в непрерывной шкале (например, число эритроцитов в 1 мкл крови), так и в порядковой (например, баллы экспертной оценки от 1 до 5).

    Эффективность и качество оценки методом Спирмена снижается, если разница между различными значениями какой-либо из измеряемых величин достаточно велика. Не рекомендуется использовать коэффициент Спирмена, если имеет место неравномерное распределение значений измеряемой величины.

    4. Как рассчитать коэффициент Спирмена?

    Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

    5. Как интерпретировать значение коэффициента Спирмена?

    При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее - показателями слабой тесноты связи; значения более 0,4, но менее 0,7 - показателями умеренной тесноты связи, а значения 0,7 и более - показателями высокой тесноты связи.

    Статистическая значимость полученного коэффициента оценивается при помощи t-критерия Стьюдента. Если расчитанное значение t-критерия меньше табличного при заданном числе степеней свободы, статистическая значимость наблюдаемой взаимосвязи - отсутствует. Если больше, то корреляционная связь считается статистически значимой.