Ранговый коэффициент корреляции Спирмена
В математике и статистике ранговый коэффициент корреляции Спирмена является мерой корреляции, названной в честь его создателя Чарльза Спирмена. Он записан вкратце как греческая буква rho ( ρ {\displaystyle \rho }) или иногда как r s {\displaystyle r_{s}}. . Это число показывает, насколько тесно связаны два набора данных. Оно может быть использовано только для данных, которые можно упорядочить, например, от высшего до низшего.
Общая формула для r s {\displaystyle r_{s}} - ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}). .
Например, если у вас есть данные о том, насколько дорогие разные компьютеры, и данные о том, насколько быстрые компьютеры, вы можете посмотреть, связаны ли они, и насколько тесно они связаны, используя r s {\displaystyle r_{s}}. .
Разработка
Шаг первый
Для разработки r {\displaystyle r_{s}} сначала необходимо проранжировать каждый фрагмент данных. Мы будем использовать пример из введения компьютеров и их скорости.
Значит, компьютер с самой низкой ценой будет на первом месте. Тот, что выше, будет иметь 2. Затем, он поднимается вверх, пока все не будет ранжироваться. Вы должны сделать это с обоими наборами данных.
Цена ($) | R a n k 1 {\displaystyle Rank_{1}} | Скорость (ГГц) | R a n k 2 {\displaystyle Rank_{2}} | |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Шаг второй
Далее мы должны найти разницу между двумя рангами. Затем, вы умножаете разницу сама по себе, что называется квадратностью. Разница называется d {\displaystyle d} , а число, которое вы получаете при квадрате d {\displaystyle d}, называется d 2 {\displaystyle d^{2}. .
R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Шаг третий
Посчитайте, сколько у нас данных. Эти данные находятся на 1-5 местах, поэтому у нас есть 5 единиц данных. Этот номер называется n {\displaystyle n} .
Шаг четвертый
Наконец, используйте в этой формуле все, что мы до сих пор проработали: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}). .
∑ d 2 {\displaystyle \sum d^{2}} означает, что мы берем в сумме все числа, которые были в колонке d 2 {\displaystyle d^{2}} . Это потому, что ∑ {\displaystyle \sum } означает "итог".
Итак, ∑ d 2 {\displaystyle \sum d^{2}} равно 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1} что равно 4. Формула гласит умножить на 6, что равно 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} равно 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)} равно 120.
Итак, чтобы выяснить это... мы просто делаем 1 - 24 120 = 0.8 {\displaystyle 1-{\cfrac {24}{120}}=0.8} .
Поэтому коэффициент ранговой корреляции Спирмена для этого набора данных равен 0,8.
Что означают цифры
r s {\displaystyle r_{s}} всегда дает ответ между -1 и 1. Цифры между ними похожи на шкалу, где -1 - очень сильная связь, 0 - нет, и 1 - тоже очень сильная связь. Разница между 1 и -1 заключается в том, что 1 является положительной корреляцией, а -1 - отрицательной. График данных со значением r s {\displaystyle r_{s}}, равным -1, будет выглядеть так, как показано на графике, за исключением линии, а точки будут идти сверху вниз слева направо.
Например, для данных, которые мы делали выше, r s {\displaystyle r_{s}} равнялась 0.8. Это означает, что существует положительная корреляция. Поскольку она близка к 1, это означает, что между двумя наборами данных существует сильная связь. Таким образом, можно сказать, что эти два набора данных связаны и идут вверх вместе. Если бы это было -0.8, то можно было бы сказать, что связь есть, и по мере того, как один поднимается, другой опускается.
Если два числа одинаковы
Иногда, при ранжировании данных, есть два или более числа, которые являются одними и теми же. Когда это происходит в r s {\displaystyle r_{s}} мы берем среднее или среднее число одинаковых рангов. Это называется связанными званиями. Для этого ранжируем связанные номера так, как будто они не связаны. Затем складываем все звания, которые они имели бы, и делим их на сколько. Например, скажем, мы ранжировали, насколько хорошо разные люди справлялись с орфографическим тестом.
Тестовый балл | Рейтинг | Звание (с привязкой) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} |
8 | 5 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}=5.5} |
8 | 6 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}=5.5} |
Эти номера используются точно так же, как и обычные ранги.
Связанные страницы
Вопросы и ответы
В: Что такое коэффициент ранговой корреляции Спирмена?
О: Коэффициент ранговой корреляции Спирмена - это мера корреляции, которая показывает, насколько тесно связаны два набора данных. Его можно использовать только для данных, которые можно расположить в порядке, например, от самого высокого к самому низкому.
В: Кто создал коэффициент ранговой корреляции Спирмена?
О: Чарльз Спирмен создал коэффициент ранговой корреляции Спирмена.
В: Как записывается общая формула для коэффициента ранговой корреляции Спирмена?
О: Общая формула для коэффициента ранговой корреляции Спирмена записывается как ρ = 1 - 6∑d2/n(n2-1).
В: Когда Вам следует использовать коэффициент ранговой корреляции Спирмена?
О: Вам следует использовать коэффициент ранговой корреляции Спирмена, когда Вы хотите увидеть, насколько тесно связаны два набора данных и связаны ли они вообще.
В: С каким типом данных он работает?
О: Он работает с любым типом данных, которые можно расположить в порядке, например, от самого высокого к самому низкому.
В: Можете ли Вы привести пример, где Вы могли бы использовать этот показатель?
О: Примером использования этой меры может быть, если у Вас есть данные о том, насколько дороги различные компьютеры, и данные о том, насколько быстры эти компьютеры, тогда Вы можете посмотреть, связаны ли они между собой, и насколько тесно они связаны, используя r_s.