§14. Елементи теорії кореляції
1. Функціональна, статистична і кореляційна залежності.
При розв’язуванні прикладних задач часто необхідно встановити і оцінити залежність однієї випадкової величини від іншоої. Ця залежність може бути функціональною або статистичною. На практиці строга функціональна залежність реалізується рідше, оскільки обидві випадкові величини зазнають впливу різних випадкових факторів, серед яких можуть бути і спільні для цих величин.
Статистичною називають залежність, коли зміна однієї з випадкових величин викликає зміну розподілу іншої випадкової величини.
Зокрема, якщо статистична залежність проявляється в тому, що при зміні однієї з величин змінюється середнє значення іншої, то така статистична залежність називається кореляційною.
2. Вибіркові рівняння регресії.
За оцінки умовних математичних сподівань приймають умовні середні, які обчислюють за даними вибірки. Умовним середнім називають середнє арифметичне спостережуваних значень , відповідних . Наприклад, якщо при величина прийняла значення =3, =7, =9, =17, то умовне середнє = Аналогічно умовним середнім називають середнє арифметичне спостережуваних значень , відповідних .
При вивченні умовних законів розподілу нами були введені поняття умовного математичного сподівання , яке є функцією від , тобто розглядали рівняння регресії на
=
і аналогічно рівняння регресії на =.
Оцінкою умовного математичниго сподівання є умовне середнє , яке є функцією від : =. Таке рівняння називають вибірковим рівнянням регресії на ; саму функцію називають вибірковою регресією на , а її графік – вибірковою лінією регресії на . Те ж стосується і рівняння =. Припустимо, що вигляд функцій і відомий. Виникає питання, як за даними вибірки обчислити параметри цих функцій, оцінити тісносту зв’язку між та і вияснити , чи вони корельовані.
3. Метод найменших квадратів. Вибірковий коефіцієнт кореляції.
Знайдемо параметри вибіркового рівняння прямої лінії регресії. Нехай в результаті проведених дослідів над системою () отримано пар чисел , , ….,. За цими даними знайдемо вибіркове рівняння прямої лінії регресії на
= (1) Кутовий коефіцієнт цієї прямої називають вибірковим коефіцієнтом регресії на , він є оцінкою коефіцієнта регресії генеральної сукупності . Припустимо, що різні значення та спостерігались в досліді по одному разу, тоді немає необхідності використовувати поняття умовного середнього , і рівняння (1) запишемо
= (2)
Підберемо параметри і таким чином, щоб точки , ….,, побудовані за даними вибірки, лежали якомога ближче до прямої (2). Роз’яснимо цю вимогу. Назвемо відхиленням різницю , де - ордината, обчислена за рівнянням (2), - спостережувана ордината, причому обидві вони відповідають деякому значенню . Параметри і підберемо так, щоб сума квадратів відхилень була мінімальною
.
В цьому і полягає суть методу найменших квадратів. Оскільки кожне відхилення залежить від параметрів і , то і сума квадратів цих відхилень буде деякою функцією цих параметрів, тобто , або  (3)
Для знаходження мінімуму функції (3) знайдемо частинні похідні по і
=2; =2.
Прирівнявши до нуля кожний з отриманих виразів, отримаємо систему двох лінійних рівнянь відносно і
+-=0
-+=0
Звідки =-, (4)
=, (5)
де =, = - вибіркові середні, =- - вибіркова дисперсія величини .
З формули (5) отримаємо вираз для вибіркового коефіцієнта кореляції
== (6)
Таким чином, вибіркове рівняння прямої лінії регресії на має вигляд
-=(). (7)
Аналогічно знаходимо вибіркове рівняння прямої лінії регресії на
-=(). (8)
де =- - вибіркова дисперсія величини .
Припустимо тепер, що отримана велика кількість дослідних даних () і серед них є такі, що повторюються. Згрупуємо ці дані у вигляді кореляційної таблиці, побудова якої ілюструється нижче(табл. 1):
Таблиця 1.




1
2
3
4


7
5
-
7
14
26

8
-
2
6
4
12

9
3
19
-
-
22


8
21
13
18


Тут прийнято, що значення варіанти спостерігалось разів, значення варіанти - разів, значення пари варіант - разів. == - обсягу вибірки.
В цьому випадку формула для вибіркового коефіцієнта кореляції має вигляд
= (9)
а вибіркове рівняння прямої лінії регресії на -=