Тема 5. МУЛЬТИКОЛІНЕАРНІСТЬ
План теми
Визначення мультиколінеарності, її природа, причини виникнення і наслідки
Тестування наявності мультиколінеарності.
Шляхи і засоби усунення мультиколінеарності.
1. Визначення мультиколінеарності ,її природа, ПРИЧИНИ ВИНИКНЕННЯ І НАСЛІДКИ
У попередніх темах розглядалися економетричні моделі, які будувалися на основі припущень класичної лінійної регресії. Параметри цих моделей, які оцінювалися на основі 1МНК, внаслідок виконання цих припущень мали властивості BLUE – оцінок, а самі моделі по суті були класичними регресійними моделями.
Але при дослідженні деяких економічних явищ і процесів економетричними методами приходиться мати справу з випадками, коли одне або декілька з цих припущень порушується. Одним з таких порушень основних положень класичного лінійного регресійного аналізу, яке може мати місце тільки для багатофакторних регресійних моделей, є мультиколінеарність.
aОзначення 1. Мультиколінеарністю називається існування у багатофакторній лінійній регресійній моделі лінійної функціональної залежності, або сильної кореляції між двома чи більше пояснюючими (незалежними) змінними .
Наприклад, мультиколінеарність може мати місце для такої економетричної моделі:
EMBED Equation.3 ,
де у – ціна акції, x1 - дивіденди на акцію, x2 - зароблений прибуток на акцію, оскільки в даному випадку дивіденди та зароблений прибуток мають високий рівень кореляції.
Таким чином, наявність мультиколінеарності означає порушення припущення класичного лінійного регресійного аналізу про незалежність між пояснюючими змінними моделі.
У практиці економетричного моделювання розрізняють повну(довершену) і неповну (недовершену) мультиколінеарність.
aОзначення 2. Повною мультиколінеарністю називається існування у багатофакторній лінійній регресійній моделі лінійної функціональної залежності між двома чи більше пояснюючими (незалежними) змінними.
aОзначення 3. Неповною мультиколінеарністю називається існування у багатофакторній лінійній регресійній моделі тісного кореляційного зв’язку між двома чи більше пояснюючими (незалежними) змінними.
Повна мультиколінеарність у практиці економетричних досліджень зустрічається дуже рідко і є скоріш за все теоретичним прикладом , в основному ж приходиться мати справу з неповною мультиколінеарністю.
Природу мультиколінеарності для випадку тільки двох пояснюючих змінних можна достатньо наочно проілюструвати наступною діаграмою Вена, наведеною на рис. 1.
SHAPE \* MERGEFORMAT y x1 x2 б) неповна мультиколінеарність а) мультиколінеарність відсутня в) повна мультиколінеарність y x1 x2 y x1= x2 Рис. 1. Природа мультиколінеарності
На рис. 1,а залежність між пояснюючими змінними моделі EMBED Equation.3 і EMBED Equation.3 ,як функціональна так і кореляційна, відсутня і чітко можна виділити (розрізнити) вплив кожної змінної на залежну змінну EMBED Equation.3 . На рис. 1,б ,який ілюструє випадок неповної мультиколінеарності, видно, що внаслідок лінійної залежності між пояснюючими змінними EMBED Equation.3 і EMBED Equation.3 стає важчим розрізняти окремо вплив кожної пояснюючої змінної на залежну, оскільки починає проявлятися і одночасний вплив обох цих змінних на залежну. На рис. 1,в при повній мультиколінеарності взагалі неможливо розрізнити ступінь індивідуального впливу пояснюючих змінних EMBED Equation.3 і EMBED Equation.3 на залежну змінну EMBED Equation.3 . Тобто, в останньому випадку залежна змінна EMBED Equation.3 „не розрізняє” пояснюючі змінні EMBED Equation.3 і EMBED Equation.3 і сприймає їх як одну.
Таким чином природа мультиколінеарності полягає у неможливості статистично оцінити і обґрунтувати вплив кожної пояснюючої змінної на залежну зміну моделі, що ,в свою чергу, робить ненадійною економічну інтерпретацію оціненого рівняння регресії.
З математичної точки зору мультиколінеарність означає, що у матриці незалежних змінних
EMBED Equation.3 між різними стовпцями (векторами спостережень за окремим пояснюючими змінними) може існувати тісна кореляція , або ж елементи деякого стовпця отримані з відповідних елементів іншого шляхом лінійних перетворень останніх. В першому випадку маємо неповну мультиколінеарність, у другому – повну. У випадку повної мультиколінеарності матриця X має неповний ранг, тобто вона містить менше ніж m незалежних стовпців. Внаслідок цього матриця EMBED Equation.3 є виродженою(сингулярною) і її визначник дорівнює нулю - EMBED Equation.3.
Мультиколінеарність може виникнути за різних умов. Основними причинами такого явища є дві причини.
По-перше, існує глобальна тенденція одночасної зміни економічних показників. Такі економічні показники, як доход, споживання, накопичення, інвестиції, ціни, зайнятість мають тенденцію до одночасного зростання у період економічної експансії і до спаду у період рецесії. Наявність тренду у зміні цих показників у часі і є причиною мультиколінеарності.
По-друге, до мультиколінеарності приводить широке використання в економетричних моделях лагових змінних, тобто змінних, значення якої в економетричній моделі фігурують з деяким часовим запізненням - лагом (наприклад, із запізненням на місяць, квартал, рік).
Що стосується наслідків мультиколінеарності, то вони залежать від типу мультиколінеарності.
У випадку повної мультиколінеарності взагалі неможливо оцінити вплив незалежних змінних на залежну і побудувати регресійну модель, оскільки неможливо оцінити параметри моделі 1 МНК. Це пов’язано з тим фактом, що , як зазначалося вище, матриця EMBED Equation.3 у цьому випадку буде виродженою (сингулярною), визначник якої буде дорівнювати 0. Оскільки для такої матриці неможливо знайти обернену EMBED Equation.3, оцінювання параметрів моделі стає неможливим з чисто математичної точки зору.
У випадку неповної мультиколінеарності теоретично для оцінювання параметрів моделі можна застосовувати 1МНК , але це може призвести до наступних теоретичних наслідків :
зміщення оцінок параметрів моделі , що не дає можливість зробити коректні висновки стосовно зв’язку між змінними моделі і економічну інтерпретацію цих параметрів .
різке суттєве збільшенні дисперсії оцінок параметрів EMBED Equation.3.
Це в свою чергу призводить до наступних негативних практичних наслідків :
Збільшення інтервалів довіри параметрів моделі .
Статистична незначимість оцінок деяких параметрів моделі. Це пов’язано із зменшенням t – статистики для деяких параметрів. Внаслідок цього із моделі можуть бути вилучені змінні, які за економічним змістом як раз суттєво впливають на залежну змінну.
Оцінки параметрів стають чутливими до розміру статистичної вибірки. Збільшення сукупності спостережень внаслідок цього іноді може привести до істотних змін в оцінках параметрів.
Таким чином, мультиколінеарність загалом негативно впливає на кількісні характеристики економетричної моделі, або робить її побудову взагалі неможливою. Внаслідок цього важливим стає питання тестування наявності мультиколінеарності у моделі і вилучення її.
? Зауваження 1. Мультиколінеарність не завжди є такою поважною проблемою, щоб прикладати суттєві зусилля щодо її виявлення і усунення. Все залежить від мети економетричного дослідження.
Якщо єдиною метою економетричного дослідження є прогнозування , то при достатньо великому значення коефіцієнта детермінації EMBED Equation.3 наявність мультиколінеарності не впливає на якість і точність прогнозу. Хоча таке твердження має підстави тільки у тому випадку, якщо між прогнозними значеннями корельованих пояснюючих змінних будуть зберігатися ті ж самі відношення, що і раніше у вибірці.
Якщо ж метою економетричного аналізу є не прогноз, а оцінювання впливу кожної пояснюючої змінної на залежну змінну, то наявність мультиколінеарності скоріш за все спотворить дійсні залежності між змінними моделі. У цій ситуації мультиколінеарність є поважною проблемою.
2. тестування наявності мультиколінеарності
Слід зазначити, що на даний момент не існує єдиного універсального методу виявлення мультиколінеарності, тому на практиці, як правило, використовують декілька методів і підходів.
Серед сучасних методів і підходів до тестування мультиколінеарності можна виділити 2 групи методів:
Методи і підходи, які базуються на деяких зовнішніх ознаках, які дозволяють тільки встановити наявність мультиколінеарності.
Методи, які базуються на спеціальних статистичних тестах.
2.1. Ознаки мультиколінеарності
Високе значення парних коефіцієнтів кореляції між незалежними змінними.
Якщо у кореляційній матриці
EMBED Equation.3
значення хоча б одного коефіцієнта парної кореляції більше 0,8, то мультиколінеарність є серйозною проблемою. Але високе значення парних коефіцієнтів кореляції є достатньою, але не необхідною умовою мультиколінеарності. Тому мультиколінеарність може бути і при відносно невеликих значеннях коефіцієнтів парної кореляції.
Слід також зазначити, що дана ознака буде надійною тільки у випадку невеликої кількості пояснюючих змінних (2 – 3). При великій кількості пояснюючих змінних більш надійним є використання частинних коефіцієнтів кореляції у формі матриці часткових коефіцієнтів кореляції.
2. Мале значення визначника кореляційної матриці.
Якщо EMBED Equation.3то існує повна (довершена) мультиколінеарність і між незалежними змінними моделі фактично існує функціональний зв’язок. Якщо EMBED Equation.3 , мультиколінеарність відсутня. Чим ближче визначник кореляційної матриці до нуля, тим більша ймовірність того, що між пояснюючими змінними існує мультиколінеарність.
3. Високе значення коефіцієнта детермінації R2 і незначимість
t - статистики.
Якщо в економетричній моделі при високому значенні R2 знайдені параметри, які є статистично незначимими за t-статистикою, це свідчить про наявність мультиколінеарності.
Основним спільним недоліком наведених ознак мультиколінеарності є те, що ні одна з них чітко не розмежовує випадки, коли мультиколінеарність істотна, а коли нею можна знехтувати. На це питання дає відповідь тест Фаррара-Глобера, який належить до 2-ї групи методів тестування на мультиколінеарність.
2.2. Тест Фаррара-Глобера
Тест Фаррара-Глобера складається з трьох етапів:
тестування на мультиколінеарність усього масиву незалежних змінних - за статистичним критерієм EMBED Equation.3 ;
перевірка на мультиколінеарність кожної незалежної змінної з рештою – за F- критерієм;
перевірка на кореляцію кожної пари незалежних змінних – за t- критерієм.
Алгоритм тесту Фаррара-Глобера.
Крок 1. Стандартизація (нормалізація) незалежних змінних.
Елементи векторів стандартизованих незалежних змінних визначаються за однією із наступних формул:
EMBED Equation.3 ( 1 )
або EMBED Equation.3 , ( 2 )
де n - число спостережень у вибірці ; m - число пояснюючих змінних моделі; EMBED Equation.3- середнє арифметичне k-ї пояснюючої змінної; EMBED Equation.3 i EMBED Equation.3 - відповідно дисперсія і стандартна похибка k- ї пояснюючої змінної.
Крок 2. Визначення кореляційної матриці нормалізованих змінних.
EMBED Equation.3 ( 3 )
або EMBED Equation.3 , ( 4 )
де EMBED Equation.3 - матриця стандартизованих незалежних (пояснюючих) змінних, EMBED Equation.3- матриця, транспонована до матриці EMBED Equation.3. Вираз ( 3 ) використовується, якщо стандартизація пояснюючих змінних виконується за виразом ( 1 ), а вираз ( 4 ) ,якщо стандартизація пояснюючих змінних виконується за виразом ( 2 ).
Крок 3. Визначення статистичного критерію EMBED Equation.3
EMBED Equation.3 ( 5 )
де EMBED Equation.3- визначник матриці r .
Розраховане значення EMBED Equation.3 - критерію порівнюється з табличним EMBED Equation.3, який знаходиться за статистичними таблицями EMBED Equation.3 - розподілу для прийнятого рівня значимості EMBED Equation.3 (або рівня довіри EMBED Equation.3 ) і ступеня вільності EMBED Equation.3.
Якщо розрахункове, фактичне значення критерію більше за табличне, тобто якщо виконується умова EMBED Equation.3, то в масиві незалежних змінних існує мультиколінеарність. У протилежному випадку мультиколінеарність відсутня і тест припиняється.
Крок 4. Визначення матриці похибок .
EMBED Equation.3. ( 6 )
Крок 5. Обчислення F-критеріїв
EMBED Equation.3 ( 7 )
де Ckk - діагональні елементи матриці C. Фактичні значення критеріїв порівнюються з табличними при ступенях вільності v1=n - m i EMBED Equation.3 v2=m-1 i заданому рівні значимості ?. Якщо для деякої пояснюючої змінної k виконується умова EMBED Equation.3, то відповідна k-та незалежна змінна мультиколінеарна з іншими змінними, тобто всі інші пояснюючі змінні моделі впливають на цю змінну внаслідок суттєвої кореляції між ними.
Крок 6. Визначення часткових коефіцієнтів кореляції
EMBED Equation.3 , ( 8 )
де Ckj- елемент матриці C, що міститься у k –му рядку і j - му стовпці; Cкк i Cjj- діагональні елементи матриці C.
Крок 7. Обчислення t-критеріїв
EMBED Equation.3 . ( 9 )
Розрахункові значення t- критеріїв порівнюються з табличними EMBED Equation.3, визначеними для рівня значимості ? і ступеня вільності EMBED Equation.3. Якщо для деякого розрахункового значення t – критерію виконується умова EMBED Equation.3, то між незалежними змінними xk i xj існує кореляція, тобто змінні xk і xj утворюють колінеарну пару.
3. шляхи і Засоби усунення мультиколінеарності
У випадку виявлення наявності мультиколінеарності існує декілька простих шляхів її усунення. Основними серед них є наступні.
1. Вилучення змінної (або змінних) з моделі. При цьому з моделі вилучається одна із змінних колінеарної пари. Слід зазначити, що таке вилучення змінних можливе тільки у випадку коли це не суперечить логіці економічних зв’язків. У протилежному випадку це може призвести до помилки специфікації.
2. Зміна аналітичної форми економетричної моделі. Іноді заміна однієї функції регресії іншою (наприклад лінійної нелінійною) , якщо це не суперечить апріорній інформації, дає змогу уникнути явища мультиколінеарності.
3. Збільшення спостережень. З точки зору теорії, мультиколінеарність та невелика кількість спостережень у вибірці – це одна і та ж проблема. Тому збільшення спостережень у статистичній вибірці або використання іншої статистичної вибірки може усунути, або принаймні зменшити вплив мультиколінеарності.
4. Перетворення статистичних даних. Позбутися мультиколінеарності можна і шляхом наступних перетворень вихідних даних стосовно пояснюючих змінних :
а) замість самих даних узяти їхні відхилення від середніх;
б) замість абсолютних значень даних взяти відносні значення ;
в) стандартизувати змінні.
5. Використання додаткової первинної інформації. Аналіз і використання первинної додаткової інформації інколи дозволяє зняти проблему мультиколінеарності.
Приклад: Нехай маємо наступну модель :
EMBED Equation.3 ( 10 )
де y - споживання; x1 - доход; x2- багатство. Відомо, що доход і багатство є висококолінеарними факторами. Припустимо, додатково відомо, що зв’язок між ними є таким, що EMBED Equation.3 , тоді модель (10) можна переписати у вигляді:
EMBED Equation.3, ( 11 )
де EMBED Equation.3. Звідси ми можемо знайти оцінку параметра ?1 , а потім і ?2, виходячи з наведеної вище апріорної залежності між цими параметрами. Як отримується апріорна інформація ? Як правило, вона спирається на економічну теорію.
Якщо ж жодний з розглянутих способів не дає змоги позбутися мультиколінеарності, для оцінювання параметрів моделі застосовують такі методи, як метод головних компонентів, факторний аналіз, гребенева регресія.