Тема 6 ГЕТЕРОСКЕДАСТИЧНІСТЬ
План теми
Визначення гетероскедастичності, її природа та наслідки.
Тестування наявності гетероскедастичності.
Оцінювання параметрів моделі у разі гетероскедастичності.
Верифікація економетричної моделі і прогнозування у випадку гетероскедастачності.
1. ВИЗНАЧЕННЯ ГЕТЕРОСКЕДАСТИЧНОСТІ, ЇЇ ПРИРОДА ТА НАСЛІДКИ
Одним з основних припущень класичної лінійної регресії, яке дозволяє коректно застосувати для оцінювання параметрів моделі 1МНК, є припущення про сталість дисперсії стохастичної складової (i, тобто припущення про гомоскедастичність стохастичної складової економетричної моделі.
(Означення 1 Гомоскедастичністю називається явище, при якому дисперсія стохастичної складової економетричної моделі є сталою (незмінною) для кожного окремого спостереження або групи спостережень.
Слід зазначити, що гомоскедастичність слід розглядати не тільки як явище, а і як властивість стохастичної складової моделі. Суть гомоскедастичності полягає в тому, що варіація кожної випадкової величини (i навколо її математичного сподівання не залежить від значення незалежних змінних x. Таким чином дисперсія випадкової величини (i залишається сталою незалежно від малих чи великих значень факторів, тобто :
. ( 1 )
Графічно випадок гомоскедастичності для простої лінійної регресії можна представити наступним чином (рис. 1). Як видно з цього рисунку гомоскедастичність характеризується тим, що випадкові відхилення залежної змінної моделі y від прямої регресії, які характеризують дисперсію величини (i , розташовані в межах деякого шару сталої ширини. Таким чином дисперсія стохастичної складової моделі ( не змінює свого значення при переході від малих значень пояснюючої змінної x до великих і залишається сталою в усьому діапазоні зміни значень пояснюючої змінної. Такий же ефект спостерігається і у випадку множинної регресії.




Рис. 1. Випадок гомоскедастичності
Формалізовано припущення про гомоскедастичність (сталість) стохастичної складової, як це вже наводилося раніше у темі 2, має вигляд :
,
або у матричній формі
, ( 2 )
де ( – одинична матриця розміру n(n, а вираз визначає коваріаційну, а точніше дисперсійно-коваріаційну матрицю випадкової величини ( .
Дійсно маємо :
,
або застосувавши до матриці оператор математичного сподівання отримаємо :
. ( 3 )
Матриця, наведена у виразі ( 3 ) називається дисперсійно-коваріаційною матрицею випадкової величини ( (стохастичної складової моделі). Діагональними елементами цієї матриці є дисперсії випадкової величини ( у кожному спостереженні , а всі інші – коваріаціями. З огляду на сталість дисперсії стохастичної складової моделі у випадку гомоскедастичності і відсутність автокореляції залишків (нульова коваріації залишків) вираз ( 3 ) можна подати у вигляді
,
що відповідає виразу ( 2 ).
Якщо припущення про гомоскедастичнічть не виконується, то має місце гетероскедастичність.
(Означення 2 Гетероскедастичністю називається явище, при якому дисперсія стохастичної складової моделі змінює своє значення від одного спостереження до іншого, або від однієї групи спостережень від другої
Суть гетероскедастичності полягає в тому, що значення дисперсії випадкової величини (і залежить від значень незалежної змінної x, тобто у цьому випадку можна записати:
( 4 )
Графічно випадки гетероскедастичності для випадку простої лінійної регресії можна представити таким чином (рис. 2):


Рис. 2. Випадки гетероскедастичності
Як формально подається явище гетероскедастичності? Оскільки у цьому випадку, як і випадку гомоскедастичності, коваріації випадкових величин (i дорівнюють нулю (внаслідок відсутності автокореляції залишків), а дисперсії змінюються від одного спостереження до іншого вираз ( 3 ) можна представити наступним чином:
,
або
( 5 )
де - деяка невідома константа , S – відома квадратна діагональна додатньо визначена матриця розмірністю n(n.
З явищем гетероскедастичності приходиться часто зустрічатися у багатьох економетричних дослідженнях. Наявність гетероскедастичності можна прогнозувати при відповідному досвіді і виходячи з аналізу економічних показників, які включаються до економетричної моделі. Прикладом економетричні моделі, для якої скоріш за все буде існувати проблема гетероскедастичності є наступна модель:
,
де : у – заощадження домогосподарства, х – дохід домогосподарства. У цьому випадку можна очікувати, що сім’ї з більшим доходом покажуть більшу варіацію у своїй поведінці заощаджень, ніж сім’ї з низьким доходом.
У випадку гетероскедастичності у принципі неможливо використовувати звичайні формули для знаходження оцінок дисперсії параметрів моделі, оскільки дисперсія залишків в умовах гетероскедастичності не є сталим числом, а змінюється із зростанням значень незалежних змінних х. Внаслідок цього разом із зміною значення незалежних змінних х буде змінюватися і дисперсія оцінок параметрів .
Оцінки параметрів моделі, отримані 1МНК в умовах гетероскедастичності будуть незміщеними, обґрунтованими, але неефективними, тобто вони будуть мати велику дисперсію, внаслідок чого вони не-будуть BLUE – оцінками. Використання таких оцінок призводить до наступних негативних наслідків :
збільшення інтервалів довіри параметрів;
помилки при використані t-тестів і F-тестів ;
неефективність прогнозів, тобто отримання прогнозів з дуже великим інтервалом довіри .
Зрозуміло, що гетероскедастичність є серйозною проблемою, тому необхідно вміти її виявляти і робити оцінювання параметрів іншими методами.

( Зауваження 1. Гетероскедастичність, як і мультиколінеарність не завжди є такою поважною проблемою, щоб прикладати суттєві зусилля щодо її виявлення і усунення. Все залежить від мети економетричного дослідження.
Якщо єдиною метою економетричного аналізу є оцінювання параметрів моделі і їх економічна інтерпретація то наявність гетероскедастичності не створить проблем, оскільки 1 МНК-оцінки у цьому випадку,як вже відмічалося, будуть незміщеними.
Якщо ж метою економетричного дослідження є прогнозування , то у цій ситуації гетероскедастичність є поважною проблемою, оскільки суттєво збільшить прогнозні інтервали залежної змінної моделі.

2. ТЕСТУВАННЯ НАЯВНОСТІ ГЕТЕРОСКЕДАСТИЧНОСТІ
Як і у випадку мультиколінеарності немає єдиних правил і методів для виявлення гетероскедастичності, а є різноманітні тести. До основних з них належать наступні тести :
тест на основі графічного аналізу залишків.
тест на основі М-критерію ;
тест Глейсера ;
тест на основі коефіцієнта рангової кореляції Спірмена ;
параметричний тест Голдфелда – Квондта ;
непараметричний тест Голдфелда – Квондта ;
2.1. Тестування гетероскедастичності на основі графічного аналізу залишків
Цей тест є найпростішим з усіх і достатньо наочним, оскільки дає можливість візуально визначити наявність гетероскедастичності. Тест умовно можна розбити на два етапи.
На першому етапі на основі статистичної вибірки і припущень про відсутність гетероскедастичності будується класична економетрична модель і обчислюються залишки .
На другому етапі виконуються дослідження квадратів залишків і робиться висновок про наявність або відсутність гетероскедастичності. Для цього будуються графіки різних типів. Для парної лінійної моделі будується графік . Для моделі багатофакторної лінійної регресії найбільш розповсюдженими є графіки залежності або графіки , де xj – пояснююча змінна, яка гіпотетично може впливати на дисперсію залишків. Якщо неможливо однозначно визначитися з такою змінною графіки будуються для всіх пояснюючих змінних моделі. Метою побудови таких графіків є встановлення наявності або відсутності систематичності у зміні квадратів залишків e2 при зміні значення залежної змінної моделі y , або пояснюючої змінної xj. Звичайно - це тільки оцінки невідомих , але вони можуть успішно використовуватися, особливо при великих вибірках.
Досліджуючи можна отримати наступні види графіків, які наведені на рис. 3.




Рис. 3. Типи графіків квадратів залишків
На рис. 3,а всі квадрати залишків знаходяться всередині шару постійної ширини, яка паралельна осі абсцис. Це свідчить про незалежність від залежної змінної y або пояснюючої змінної xj і їх сталості, тобто у цьому випадку виконуються умови гомоскедастичності.
На рис. 3,б – г спостерігаються систематичні зміни у співвідношенні між значеннями y ( або xj ) і квадратами залишків . На рис. 3,б і 3,в відображена лінійна, а на рис.3,г – квадратична залежності між квадратами залишків і значеннями залежної або пояснюючої змінної моделі. Таким чином, ситуації , представлені на 3,б – г, свідчать про наявність у цих випадках гетероскедастичності.

( Зауваження 2. Графічний метод дає можливість не тільки виявити гетероскедастичність, але й зробити висновок щодо самої форми зв’язку між дисперсією залишків і пояснюючими змінними моделі, що особливо важливо для побудови моделі при наявності гетероскедастичності.

2.2. Параметричний тест Голдфелда-Квондта
Цей тест застосовується в основному для невеликих вибірок. В основу цього тесту покладено припущення, що дисперсія залишків зростає пропорційно до квадрату однієї з пояснюючих змінних xj, тобто розглядається випадок коли , де - невідомий коефіцієнт пропорційності (константа). Залишки, при цьому розподілені за нормальним законом і некорельовані.
Алгоритм тесту
Крок 1. Виконується впорядкування (ранжування) спостережень у статистичній вибірці в порядку зростання (або спаду) значень пояснюючої змінної xj.
Крок 2. З усіх спостережень впорядкованої вибірки відкидається с спостережень, які містяться у центрі вибірки. Ця кількість згідно рекомендацій авторів тесту визначається із співвідношення
. ( 6 )
У результаті цього утворюються дві підвибірки розміром .
Крок 3. Для кожної підвибірки на основі 1МНК будується окрема регресійна модель.
Крок 4. Для кожної підвибірки визначається сума квадратів залишків SSE1 і SSE2:
, ( 7 )
, ( 8 )
де е1,i – залишки для першої моделі (побудованої на основі першої підвибірки), е2,i –залишки для другої моделі(побудованої на основі другої підвибірки) .
Крок 5. Для порівняння зазначених дисперсій обчислюється наступна F – статистика (критерій Фішера ) :
, ( 9 )
яка порівнюється з табличним значення F – критерію Fтабл,, що визначається за статистичними таблицями F – розподілу Фішера для заданого рівня значимості ( і ступенів вільності , де n – загальна кількість спостережень, k – кількість параметрів моделі, с – кількість відкинутих спостережень.
Якщо виконується умова F* > Fтабл, то гетероскедастичність присутня. У протилежному випадку маємо випадок гомоскедастичності. Слід зазначити, чим більше значення критерію F, обчисленому за виразом ( 8 ), тим більше ефект гетероскедастичності стохастичної складової моделі.

( Зауваження 3. Якщо важко апріорі визначити пояснюючу змінну хі, яка впливає на залишки, тест Голдфелда-Квондта потрібно застосувати по черзі до кожної незалежної змінної моделі окремо.

3. ОЦІНЮВАННЯ ПАРАМЕТРІВ МОДЕЛІ У РАЗІ ГЕТЕРОСКЕДАСТИЧНОСТІ
Економетрична модель, якій притаманна гетероскедастичність є узагальненою моделлю, і для оцінювання її параметрів використовується так званий узагальнений метод найменших квадратів (УМНК) , або метод Ейткена. Свою назву метод отримав внаслідок його застосування для оцінювання параметрів моделі, для якої дисперсійно-коваріаційна матриця стохастичної складової моделі приймається у найбільш загальному вигляді ( 3 ), тобто допускається одночасно і гетероскедастичність і автокореляція залишків.
В основу методу Ейткена покладено ідею трансформації економетричної моделі, якій притаманна гетероскедастичність у класичну гомоскедастичну с подальшим застосуванням до такої трансформованої моделі процедури 1 МНК для оцінювання параметрів узагальненої моделі, якій притаманна гетероскедастичність. Трансформація вихідної моделі у гомоскедастичну відбувається шляхом корегування вихідної статистичної інформації стосовно змінних моделі. Спосіб і форма корегування вихідних даних визначаються, при цьому , формою залежності дисперсії стохастичної складової ( від тієї чи іншої пояснюючої змінної моделі.
Розглянемо більш докладно цей метод. Нехай є економетрична модель
, ( 10 )
для якої , де - як і раніше, деяка невідома константа , S – відома квадратна додатньо визначена матриця розмірністю n(n, яка у випадку гетероскедастичності ,як показано раніше, є діагональною матрицею і має наступний вигляд :
, ( 11 )
де - власні значення цієї матриці.
Оскільки матриця S симетрична і додатньо визначена, то використовуючи теорію матриць її можна подати у наступному вигляді:
, ( 12 )
де матриця P є не виродженою і має вигляд
, ( 13 )
а обернена до неї відповідно :
. ( 14 )
Базуючись на особливостях матриць S i P запишемо деякі співвідношення між ними і оберненими до них :
( 15 )
і . ( 16 )
Помноживши рівняння ( 10 ) на матрицю P-1, дістанемо :
( 17 )
Введемо наступні позначення : .
Тоді модель матиме вигляд:
. ( 18 )
Використовуючи ( 16 ) можна показати, що для цієї перетвореної моделі гетероскедастичність відсутня, оскільки
,
що дає змогу застосувати до трансформаційної моделі (18) 1МНК . Тоді отримаємо :
,
або з врахуванням ( 16 ) остаточно
. ( 19 )
Таким чином, якщо матриця S відома, за формулою ( 19 ) можна завжди обчислити оцінки параметрів моделі у разі гетероскедастичності. Проблема полягає у визначені власних Оскільки дійсні значення випадкової величини ( ,як правило невідомі, значення (і у матриці S можна обчислити користуючись різними гіпотезами відносно зв’язку дисперсії і деякої пояснюючої змінної хj. В основному при цьому використовуються наступні 2 гіпотези.
Гіпотеза 1. Дисперсія залишків пропорційна до зміни пояснюючої змінної хj - . Тоді величини (і визначається як:
. ( 20 )
Гіпотеза 2. Дисперсія залишків пропорційна до зміни квадрату пояснюючої змінної хj - . Величини (і визначається для цієї гіпотези як:
. ( 21 )
4. ВЕРИФІКАЦІЯ ЕКОНОМЕТРИЧНОЇ МОДЕЛІ І ПРОГНОЗУВАННЯ У ВИПАДКУ ГЕТЕРОСКЕДАСТАЧНОСТІ.
Оцінки (19) , отримані методом Ейткена, є BLUE – оцінками і мають дисперсійно - коваріаційну матрицю
( 22 )
Незміщена оцінка дисперсії залишків визначається для цього випадку наступним чином:
, ( 23 )
де e – вектор залишків моделі, параметри якої обчислені за 1 МНК.
Таким чином у випадку гетероскедастичності, якщо відома матриця S, оцінки параметрів узагальненої моделі можна визначити методом Ейткена (УМНК) за формулою ( 19 ), оцінку дисперсії залишків за формулою (23), а оцінки дисперсій параметрів моделі – з дисперсійно-коваріаційної матриці ( 22 ). Це дає можливість у подальшому застосувати t – статистику для перевірки статистичної значимості параметрів моделі і побудови інтервалів довіри для них.
Що стосується перевірки загальної статистичної значимості моделі , то це можна зробити на основі відомих сум квадратів, розглянутих раніше у дисперсійному аналізі загальної лінійної економетричної моделі. Коли параметри економетричної моделі оцінюються за УМНК дисперсійний аналіз дає наступні суми квадратів :

, ( 24 )
, ( 25 )
, ( 26 )
де : B – вектор оцінок параметрів моделі, отриманих узагальненим методом найменших квадратів (УМНК), e – вектор залишків моделі, параметри якої обчислені за 1 МНК , Y – вектор спостережень за залежною змінною моделі, X - матриця спостережень за пояснюючими змінними моделі, S – матриця ( 11 ).
Використовуючи зазначені суми квадратів можна визначити множений (або парний) коефіцієнт детермінації, множинний (або парний) коефіцієнт кореляції і перевірити побудовану модель за F – критерієм на статистичну значимість у цілому.
Найкращий незміщений лінійний точковий прогноз у випадку гетероскедастичності обчислюється за наступною залежністю :
, ( 27 )
де: B – вектор оцінок параметрів моделі, отриманих узагальненим методом найменших квадратів (УМНК); – останній параметр з матриці S (для останнього спостереження у вибірці); - залишок в останньому спостережені, обчислений для моделі, параметри якої оцінені на основі 1МНК; - вектор прогнозних значень пояснюючих змінних моделі.
Інтервальні прогнози у випадку гетероскедастичності обчислюються за наступними залежностями :
інтервальний прогноз для індивідуального значення залежної змінної
; ( 28 )
інтервальний прогноз для математичного сподівання залежної змінної
. ( 29 )

ВИСНОВКИ
При побудові економетричних моделей часто приходиться стикатися з порушенням другої умови застосування 1МНК – умови про сталість дисперсії стохастичної складової моделі у всіх спостереженнях, яка математично має вигляд . У цьому випадку маємо справу з явищем гетероскедастичності залишків, суть якого полягає у тому, що дисперсія стохастичної складової економетричної моделі змінюється від одного спостереження до іншого, або від однієї групи спостережень до іншої.
На відміну від мультиколінеарності і автокореляції залишків не існує чітких причин виникнення цього явища.
Гетероскедастичність залишків є негативним явищем і ускладнює економетричних аналіз. Оцінювання параметрів узагальненої економетричної моделі у випадку гетероскедастичності дає неефективні оцінки параметрів моделі, що призводить до наступних наслідків :
завищені значення дисперсії параметрів моделі ;
помилки при використанні t – тестів і F – тестів ;
неефективність прогнозів, тобто отримання прогнозів з дуже великим прогнозним інтервалом.
Для тестування гетероскедастичності використовуються наступні статистичні тести :
тест на основі графічного аналізу залишків.;
тест на основі М-критерію ;
тест Глейсера ;
тест на основі коефіцієнта рангової кореляції Спірмена ;
параметричний тест Голдфелда – Квондта ;
непараметричний тест Голдфелда – Квондта ;
Для оцінювання параметрів економетричних моделей у разі гетероскедастичності використовується узагальнений метод найменших квадратів (метод Ейткена) .
Метод Ейткена базується на попередній трансформації економетричної моделі, якій притаманна гетероскедастичність у класичну гомоскедастичну с подальшим застосуванням до такої трансформованої моделі процедури 1 МНК для оцінювання параметрів узагальненої моделі, якій притаманна гетероскедастичність. Оператор оцінювання параметрів моделі має при цьому наступний вигляд :
.
Матрицю S можна обчислити користуючись різними гіпотезами відносно зв’язку залишків і деякої пояснюючої змінної хj.
Отримані за методом Ейткена оцінки параметрів моделі мають усі властивості BLUE – оцінок і характеризуються наступною дисперсійно-коваріаційною матрицею
.
Найкращий незміщений лінійний точковий прогноз у випадку гетероскедастичності обчислюється за наступною залежністю :
,
де: B – вектор оцінок параметрів моделі, отриманих узагальненим методом найменших квадратів (УМНК); – останній параметр з матриці S (для останнього спостереження у вибірці); - залишок в останньому спостережені, обчислений для моделі, параметри якої оцінені на основі 1МНК; - вектор прогнозних значень пояснюючих змінних моделі.
Інтервальні прогнози у випадку гетероскедастичності обчислюються за наступними залежностями :
інтервальний прогноз для індивідуального значення залежної змінної
;
інтервальний прогноз для математичного сподівання залежної змінної
.
У випадку гетероскедастачності параметри економетричної моделі приходиться оцінювати двічі.
Спочатку це робиться на основі 1МНК і отримані при цьому оцінки і рівняння регресії використовуються тільки для обчислення вектору залишків. Цей вектор залишків у подальшому використовується як в процесі верифікації моделі формула (23), так і у процесі прогнозування ( формула (27) ).
Другий раз це робиться на основі методу Ейткена, який дає BLUE – оцінки параметрів моделі. Ці оцінки і відповідне рівняння регресії використовуються у подальшому при поданні моделі, верифікації моделі, економіко-математичному аналізі і прогнозуванні.