3. КОРЕЛЯЦІЙНО- регресійнИЙ аналіз В ЕКОНОМІЦІ.
При визначені економетрії було зроблено наголос на тому, що вона вивчає кількісні взаємозв’язки і залежності між економічними показниками, явищами і процесами.
Вочевидь, будь-які економічні показники, зазвичай, перебувають під впливом багатьох випадкових факторів, а тому з математичної точки зору вони повинні розглядатися як випадкові величини. Внаслідок цього залежності між економічними показниками не є однозначними, не є функціональними. Це означає, що кожному фіксованому значенню однієї економічної змінної (або фіксованому набору змінних) відповідає не одне єдине, а множина значень іншої змінної, тобто деякий ймовірностний розподіл. Тому в економіці спостерігаються і розглядаються так звані статистичні (або кореляційні ) залежності.
aОзначення 4. Статистичною називається залежність, коли зі зміною однієї випадкової величини змінюється закон розподілу ймовірностей іншої.
aОзначення 5. Кореляційною називається статистична залежність, коли зі зміною однієї випадкової величини змінюється математичне сподівання (середнє значення) іншої.
При вивченні статистичних зв’язків і залежностей між економічними змінними можна виділити два варіанти їх вивчення.
У першому випадку усі змінні є рівнозначними і не поділяються на залежні і незалежні. Основним у цьому випадку є питання щодо наявності і сили кореляційного взаємозв’язку між цими змінними. Відповідь на це питання дає кореляційний аналіз. Зокрема при оцінюванні сили лінійного взваємозв’язку між змінними використовується відомий коефіцієнт кореляції.
У другому випадку усі економічні показники поділяються на залежні і незалежні і вивчається кількісна залежність перших від других, тобто моделюються причино-наслідкові зв’язки між економічними показниками. Наприклад, може вивчатися вплив зростання доходу на споживання, відсоткової ставки на інвестиції і т.і.
Основним завданням у цьому випадку є знаходження загальної закономірності, що характеризує залежність двох (або більше) кореляційно пов’язаних змінних, тобто розробка математичної моделі зв’язку цих змінних. Ця задача вирішується методами регресійного аналізу.
Розглянемо основні принципи і поняття регресійного аналізу. Нехай з певних економічних міркувань встановлено, що деякий економічний показник x є причиною зміни іншого показника y. Статистичні дані по кожному з показників інтерпретуються як деякі реалізації випадкових величин x і y.
Тоді кореляційна залежність між цими змінними або залежність у середньому може бути представлена у вигляді наступного співвідношення :
EMBED Equation.3 ( 1 )
де EMBED Equation.3 - умовне математичне сподівання (середнє значення) залежної змінної y.
Функція EMBED Equation.3 називається функцією (рівнянням) регресії y на x. Показник x називається незалежною (пояснюючою) змінною, або регресором, показник EMBED Equation.3 - залежною (пояснюваною) змінною або регресандом.
Для випадку багатьох (більше ніж двох) показників кореляційна залежність між залежним і незалежними показниками має наступний вигляд :
EMBED Equation.3 , ( 2 )
де, як і у попередньому випадку, EMBED Equation.3 є залежною (пояснюваною) змінною або регресандом, а показники EMBED Equation.3 є незалежними (пояснюючими) змінними, або регресорами.
aОзначення 6. Функція, яка описує залежність між незалежною змінною (або незалежними змінними) і умовним математичним сподіванням (середнім) залежної змінної називається функцією регресії (рівнянням регресії) .
aОзначення 7. Регресією називається функціональна залежність між незалежною змінною (або незалежними змінними) і умовним математичним сподіванням (середнім значенням) залежної змінної.
Для випадку двох змінних ( 1 ) регресія називається парною (або простою). Для випадку багатьох змінних ( 2 ) регресія називається множинною (або багатофакторною) . Зазначимо, що функції регресії (1), (2) можуть бути як лінійними так і не лінійними по відношенню до параметрів рівнянь і незалежних змінних. У першому випадку йдеться про лінійну регресію, у другому – про нелінійну.
Як і будь-яка функція, функція регресії має графічну форму представлення. Так для парної регресії графічне зображення функції регресії на площині x0y представляє собою так звану криву (лінію) регресії.
aОзначення 8. Лінія, яка графічно зображує залежність між незалежною змінною EMBED Equation.3 і умовним математичним сподіванням (середнім) залежної змінної EMBED Equation.3 називається кривою (лінією) регресії.
Для множинної регресії крива регресії перетворюється на поверхню (або гіперповерхню) регресії.
Оскільки реальні значення залежної змінної EMBED Equation.3 не завжди співпадають з її умовним математичним сподіванням, а можуть бути різними при одному і тому ж значенні пояснюючої змінної (наборі пояснюючих змінних), фактична залежність між економічними показниками повинна складатися з функції регресії і деякого додатку EMBED Equation.3 , який є випадковою величиною і перетворює функціональні залежності (1), (2) на статистичні (стохастичні) .
aОзначення 9. Статистичні зв’язки між залежною і незалежними змінними, що описуються співвідношеннями
EMBED Equation.3 ( 3 )
EMBED Equation.3 ( 4 )
називаються регресійними моделями .
Регресійна модель, представлена співвідношенням ( 3 ) називається моделлю парної лінійної регресії, а співвідношенням ( 4 ) – відповідно моделлю багатофакторної лінійної регресії або моделлю множинної лінійної регресії.
Випадкову величину EMBED Equation.3 , яка акумулює в собі вплив різних випадкових факторів на залежну змінну регресійної моделі прийнято називати збуренням ( похибкою, відхиленням).
В залежності від статистичної бази розрізняють теоретичну і вибіркову моделі регресії.
aОзначення 10. Теоретичною регресійною моделлю називається модель, яка відповідає генеральній сукупності спостережень за змінними моделі.
Теоретичній регресійній моделі відповідають теоретична функція і крива регресії
aОзначення 11. Вибірковою (емпіричною) регресійною моделлю називається регресійна модель, побудована на основі окремої статистичної вибірки з генеральної сукупності спостережень.
Теоретична функція і модель регресії (1) – (4) є ідеалізованими конструкціями, оскільки у практиці економетричного моделювання, як правило, не доводиться мати справу з генеральною сукупністю спостережень, а тільки з деякою окремою статистичною вибіркою з неї. Тому реально, ніколи не можливо побудувати «дійсну» теоретичну регресію, а тільки вибіркову (емпіричну), яка є тільки наближенням до «дійсної» теоретичної регресії.
У загальному вигляді вибіркова функція регресії і вибіркова регресійна модель можуть бути записані у наступному вигляді:
EMBED Equation.3 ( 5 )
EMBED Equation.3 ( 6 )
де EMBED Equation.3 - оцінка математичного сподівання EMBED Equation.3 , EMBED Equation.3 - випадкова складова моделі, яка є оцінкою величини EMBED Equation.3 теоретичної регресійної моделі. Значення величини EMBED Equation.3 , обчислені у кожному спостережені статистичної вибірки прийнято називати залишками, хоча цей термін часто застосовують для означення значень і самої величини EMBED Equation.3 .
Слід також зазначити, що і параметри вибіркової регресійної моделі є також оцінками , тобто наближеними значеннями, «дійсних» параметрів теоретичної моделі.
У зв’язку з таким співвідношенням між теоретичною і вибірковою регресійними моделями виникає принципове питання – яким чином на основі статистичної вибірки побудувати вибіркову регресійну модель, яка б «найкращим» чином апроксимувала невідому теоретичну модель з метою її подальшого застосування в аналізі і прогнозуванні модельованого процесу або явища.
На це питання також дає відповідь регресійний аналіз – розділ математичної статистики, який поєднує методи дослідження регресійної залежності між випадковими величинами на основі вибіркових статистичних даних.
Таким чином задачами регресійного аналізу є :
-вибір виду (аналітичної форми) функції регресії;
-оцінювання (визначення) параметрів вибраного рівняння регресії на основі статистичної вибірки;
-аналіз якості регресійної моделі і перевірка адекватності моделі статистичним даним.
aОзначення 12. Сукупність методів, за допомогою яких досліджуються та узагальнюються взаємозв’язки кореляційно пов’язаних змінних, називається кореляційно-регресійним аналізом.
МЕТОДИ ПОБУДОВИ ЗАГАЛЬНОЇ ЛІНІЙНОЇ ЕКОНОМЕТРИЧНОЇ МОДЕЛІ
5.1. Характеристика основних методів побудови загальної лінійної економетричної моделі
На кожний економічний показник впливає безліч різних факторів. При ідентифікації загальної лінійної економетричної моделі виникає питання, які саме з них потрібно увести до моделі у якості пояснюючих змінних. Для вирішення цього питання в принципі існує два наступні підходи.
1-й підхід. З точки зору надійності прогнозування, необхідно включати до моделі якомога більше факторів. Але при цьому, кожна „зайва” пояснююча змінна погіршує ситуацію ,оскільки вона зменшує надійність F-тесту на загальну статистичну значимість моделі і може призвести до невірних статистичних висновків.
2-й підхід. З точки зору отримання надійної статистичної інформації по кожному фактору слід прагнути, щоб модель мала якомога менше факторів, оскільки збір і обробка великих статичних масивів потребує великих затрат при недостатній надійності статистичних даних.
Компромісом між цими крайніми підходами є те, що називають вибором "найкращого рівняння" регресії. Для реалізації такого вибору немає єдиної статистичної процедури, єдиного методу. Існує декілька методів побудови "найкращої" лінійної регресії, найбільш поширеними серед яких є:
метод усіх можливих регресій ;
метод покрокової регресії ;
метод виключень .
А) Метод усіх можливих регресій
Метод усіх можливих регресій – історично перший метод побудови лінійних регресійних моделей і найбільш громіздкий серед усіх методів. Ідея методу полягає у побудові множини регресійних рівнянь, які містять усі можливі комбінації попередньо відібраних факторів, і у порівнянні цих рівнянь за трьома критеріями : коефіцієнтом детермінації R2, стандартною похибкою EMBED Equation.3 і критерієм Меллоуза Ср. У загальному випадку для m відібраних факторів (пояснюючих змінних) можна побудувати 2m рівнянь регресії і виконати їх порівняння.
Побудова і аналіз усіх можливих регресійних рівнянь є доволі громіздка і ненадійна процедура, тому цей метод рекомендується використовувати при невеликій кількості відібраних факторів.
Б) Метод покрокової регресії
Цей метод є найпоширенішим на практиці і більш економним у порівнянні з попереднім. Ідея методу полягає у послідовному включенні до моделі факторів (пояснюючих змінних) до тих пір, поки модель не стане задовільною. Порядок включення факторів до моделі вибирається на основі значень коефіцієнтів парної кореляції між пояснюючими і залежною змінною моделі. Алгоритм методу покрокової кореляції можна подати у наступному вигляді :
Алгоритм методу
Розраховується кореляційна матриця r для усіх змінних моделі, які планується включити до моделі.
Спочатку з кореляційної матриці вибирається і включається до моделі той фактор EMBED Equation.3 , якому у кореляційній матриці відповідає найбільший за модулем коефіцієнт парної кореляції з залежною змінної моделі у (нехай це буде змінна х1). Будується регресійне рівняння з однією незалежною змінною EMBED Equation.3 і для нього обчислюється коефіцієнт детермінації. Після цього перевіряється чи значима ця змінна за коефіцієнтом детермінації і за частковим F- критерієм. Якщо ні, то приймаємо EMBED Equation.3 і процес побудови моделі припиняється. Якщо так, то переходимо до наступного кроку 3.
На основі аналізу кореляційної матриці серед тих пояснюючих змінних, що залишились, шукаємо нову змінну, яка має найбільший за модулем коефіцієнт кореляції з у і включаємо її до моделі (нехай це буде змінна х2) .
Будується нове рівняння регресії :
EMBED Equation.3
і для нього розраховується звичайний EMBED Equation.3 і оцінений EMBED Equation.3 коефіцієнт детермінації. Аналізується зміна цих показників у порівнянні з попередньою моделлю. Потім розраховуються часткові F- критерії для кожного фактора. Серед них обирається найменше значення і порівнюється із заздалегідь обраним критичним значенням F - критерію. В залежності від результатів перевірки додана на цьому кроці змінна або залишається у моделі, або відкидається.
Після цього модель перераховується в залежності від факторів, які залишились і здійснюється перехід до кроку 3.
Процес побудови моделі за наведеним алгоритмом припиняється, якщо жодний фактор, що знаходиться у поточному рівнянні , не вдається виключити, а новий претендент на включення не відповідає частковому F - критерію.
В. Метод виключень
Метод виключень діє у зворотному порядку порівняно з методом покрокової регресії і є також досить поширеним. Загальний алгоритм методу складається з 5 кроків.
Будується рівняння регресії, яке включає всі відібрані фактори . Якщо попередньо було відібрано m факторів , то вихідне базове рівняння має вигляд :
EMBED Equation.3 .
Для кожного фактора (пояснюючої змінної) EMBED Equation.3 обчислюється значення часткового F- критерію.
Серед розрахованих значень часткового F- критерію вибирається найменше Fmin і порівнюється із заздалегідь обраним критичним значенням розподілу Фішера Fкр .
Якщо Fmin < Fкр , то відповідний фактор виключається з рівняння. Проводиться новий розрахунок регресійного рівняння вже без виключеного фактора і здійснюється перехід знову до кроку 2.
Якщо Fmin > Fкр , то регресійне рівняння залишається без змін.
5.2. Статистичні показники, які використовуються при побудові загальної лінійної економетричної моделі
При розгляді методів побудови загальної лінійної економетричної моделі були використані такі нові поняття і статистичні показники, як частковий F – критерій ,оцінений коефіцієнт детермінації ,кореляційна матриця. Розглянемо ці показники більш детальніше.
А. Частковий F- критерій.
Одним з головних питань будь-якого методу побудови багатофакторної регресійної моделі є питання визначення суттєвості впливу на залежну змінну у окремих факторів. Таку оцінку можна зробити з використанням F- статистики на основі часткового F- критерію Фішера. Зміст часткового F- критерію розглянемо на наступному прикладі.
Нехай є економетрична модель ,яка враховує вплив к факторів на залежну змінну у, тобто :
EMBED Equation.3 .
Припустимо, що з к факторів p факторів несуттєво впливають на показник у. Тоді побудуємо другу регресійну модель, в яку не включаємо ці р факторів.
EMBED Equation.3 .
Позначимо суму квадратів залишків 1-ї моделі через SSE1, а 2-ї моделі - через SSE2 . Тоді різниця SSE1 - SSE2 дорівнює додатковій сумі квадратів залишків, яка пов'язана з включенням (або вилученням) до 1-ї моделі p додаткових факторів. Зазначимо, що ця додаткова сума квадратів буде мати ступінь вільності p = k – q.
Знайдемо наступне розрахункове значення F- статистики :
EMBED Equation.3 EMBED Equation.3 . ( 62 )
Для заданого рівня значимості ? і ступенів вільності EMBED Equation.3 і EMBED Equation.3 за статистичними таблицями F- розподілу знаходимо критичне значення критерію Фішера Fкр. Якщо Fp,n-k > Fкр, то із надійністю 1 - ? можна вважати, що вилучені фактори суттєво впливають на результуючий показник у і їх потрібно залишити у складі пояснюючих змінних моделі. У протилежному випадку (Fp,n-k < Fкр.) з надійністю 1- ? можна вважати, що виключення із моделі р факторів несуттєво впливає на показник у і для моделювання можна вибрати другу модель з q пояснюючими змінними.
Якщо розглядати процес поступово включення (або вилучення) факторів до моделі, коли на кожному етапі до моделі включається (або вилучається) тільки один фактор за допомогою наведеного F- відношення ( 57 ) будемо мати критерій, який і визначатиме суттєвість впливу цього окремого фактора на залежну змінну у. Такий варіант F- критерію називається частковим F- критерієм і визначається за формулою ( 57 ) для р=1 .
Б. Оцінений коефіцієнт детермінації.
Важливою властивістю коефіцієнта детермінації R2 є те, що він – неспадна функція від кількості факторів, які входять до моделі. Якщо кількість факторів зростає, то R2 також зростає і ніколи не зменшується. Це ускладнює порівняння економетричних моделей і вибір серед них найкращої. Так наприклад, якщо ми порівнюємо дві економетричні моделі з однаковою залежною змінною, але різною кількістю пояснюючих змінних, ми звичайно віддаємо перевагу тій, яка має більше значення R2, хоча це може і не відповідати дійсності.
Тому щоб запобігти невиправданому розширенню моделі і мати можливість порівнювати моделі з різною кількістю факторів уводять так званий оцінений коефіцієнт детермінації EMBED Equation.3 , який зменшує вплив зростання кількості факторів на коефіцієнт детермінації за рахунок поправки на ступені вільності. У практиці економетричного дослідження використовуються два різновиди оцінененого коефіцієнта детермінації :
коефіцієнт детермінації, скоригований за Тейлом - EMBED Equation.3 ;
коефіцієнт детермінації, скоригований за Амемією - EMBED Equation.3 .
Перший з них обчислюється за наступною залежністю :
EMBED Equation.3 , ( 63 )
а другий – за залежністю :
EMBED Equation.3 . ( 64 )
Коефіцієнт детермінації R2 і оцінені коефіцієнти детермінації EMBED Equation.3 та EMBED Equation.3 пов’язані між собою наступними співвідношеннями :
EMBED Equation.3 , ( 65 )
EMBED Equation.3 . ( 66 )
Вочевидь, для кожного оціненого коефіцієнта детермінації виконується нерівність EMBED Equation.3 , тобто зі збільшенням числа пояснюючих змінних моделі оцінені коефіцієнти детермінації зростають повільніше, ніж EMBED Equation.3 , зменшуючи таким чином вплив числа факторів на величину коефіцієнта детермінації. Крім того, якщо EMBED Equation.3 , то і EMBED Equation.3 . Якщо EMBED Equation.3 прямує до нуля , оцінені коефіцієнти кореляції стають від’ємними. Така властивість скоригованих коефіцієнтів детермінації дає змогу більш об’єктивно оцінювати якість моделей з різним числом факторів.
В. Кореляційна матриця.
Кореляційна матриця дозволяє оцінити щільність лінійного кореляційного зв'язку між залежною змінною моделі і окремими факторами, а також між окремими незалежними змінними. У загальному випадку вона представляє собою квадратну симетричну матрицю, елементами якої є коефіцієнти парної кореляції між залежною змінною моделі і кожною пояснюючою змінною, а також коефіцієнти парної кореляції між самими пояснюючими змінними моделі.
Для випадку m пояснюючих змінних кореляційна матриця має наступний вигляд і структуру :
EMBED Equation.3 , EMBED Equation.3 . ( 67 )
Діагональні елементи матриці r дорівнюють 1. Коефіцієнти парної кореляції EMBED Equation.3 та EMBED Equation.3 обчислюються за відомою формулою визначення коефіцієнта парної кореляції, яка у даному випадку трансформується у наступні вирази ( 32 ):
EMBED Equation.3 , ( 68 )
EMBED Equation.3 , ( 69 )
де EMBED Equation.3 - вибіркова дисперсія j – ї пояснюючої змінної, EMBED Equation.3 - вибіркова дисперсія k – ї пояснюючої змінної, EMBED Equation.3 - вибіркова дисперсія залежної змінної, EMBED Equation.3 - вибірковий коефіцієнт коваріації між j – ю пояснюючою змінною і залежною змінною моделі. Ці величини обчислюються за відомими залежностями, як у виразі ( 32 ).
Як відомо, будь-який коефіцієнт парної кореляції з наведеної вище кореляційної матриці характеризує тісноту зв'язку між відповідними змінними за умови, що інші змінні ведуть себе „природним чином” – тобто також змінюють свої значення разом з тими, для яких обчислюється коефіцієнт парної кореляції. Це не дає можливість оцінити тісноту кореляційного зв’язку між двома змінними моделі так би мовити у „чистому вигляді”.
Тому при вивченні зв'язку між змінними економетричної моделі недостатньо спиратися тільки на кореляційну матрицю. Необхідно також проаналізувати часткові коефіцієнти кореляції. На відміну від парних часткові коефіцієнти кореляції характеризують тісноту зв'язку між двома змінними за умови, що інші змінні сталі. Такі коефіцієнти кореляції більш коректно вимірюють силу лінійного кореляційного зв’язку між змінними моделі і дають більш точну інформацію, необхідну при побудові загальної лінійної економетричної моделі. Формула для визначення часткового коефіцієнта кореляції між двома змінними моделі має вигляд :
EMBED Equation.3 , ( 70 )
де EMBED Equation.3 – елементи матриці С, оберненої до кореляційної матриці r. За цією формулою визначається частковий коефіцієнт кореляції між економічним показником j і показником k при умові, що усі інші економічні показники, які фігурують в економетричні моделі є сталими. Слід зазначити, що у якості показника j може виступати як залежна змінна моделі так і незалежна, а у якості показника k – незалежна, пояснююча змінна.