Министерство образования и науки РФ
Федеральное агентство по образованию ГОУ ВПО
Всероссийский заочный финансово-экономический институт
Кафедра экономико-математических методов и моделей
КОНТРОЛЬНАЯ РАБОТА
по дисциплине:
«Эконометрика»
Вариант № 9
Преподаватель: Орлова Ирина Владленовна
(к.э.н., профессор)
Студентка:
(УСФ, БУАиА, гр. 16/1)
(3 курс, II в/о, №)
Москва – 2008
План работы
Задача 1. Эконометрическое моделирование стоимости квартир в Московской области.
Задание по эконометрическому моделированию стоимости квартир в Московской области:
Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.
Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.
Рассчитайте параметры линейной парной регрессии для каждого фактора Х.
Оцените качество каждой модели через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера. Выберите лучшую модель.
Для выбранной модели осуществите прогнозирование среднего значения показателя при уровне значимости , если прогнозное значения фактора составит 80% от его максимального значения. Представьте графически: фактические и модельные значения, точки прогноза.
Используя пошаговую множественную регрессию (метод исключения или метод включения), постройте модель формирования цены квартиры за счёт значимых факторов. Дайте экономическую интерпретацию коэффициентов модели регрессии.
Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, ? - и ? - коэффициентов.
Таблица 1. Наименования показателей
Таблица 2 Исходные данные для эконометрического моделирования стоимости квартир
Решение:
Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.
1.1 Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. Для множества m признаков n наблюдений получают матрицу коэффициентов парной корреляции.
Количество наблюдений n=40
Количество факторов (переменных) m=3
Рассчитываем матрицу парных коэффициентов корреляции с использованием надстройки Excel:
Вводим данные для корреляционного анализа, расположив их в смежных диапазонах ячеек (Y, Х4,Х5,Х6);
Выбираем команду Сервис-анализ данных-корреляция-задаем входной интервал (Y, Х4,Х5,Х6), по столбцам, метки, новый рабочий лист-ОК.
Таблица 3 Матрица коэффициентов парной корреляции
Коэффициент парной корреляции определяется по формуле:
ry,x= EMBED Equation.3 , (1)
где Sx2= EMBED Equation.3 , Sy2= EMBED Equation.3 - оценки дисперсий величин Х и Y.
Коэффициент парной корреляции также можно определить с использованием надстройки Excel:
Выбираем пустую ячейку. Функция-КОРЕЛЛ-выбираем без надписи значения Y для массива 1 и значения одного фактора Хi для массива 2-ОК
Вывод: Анализ матрицы коэффициентов парной корреляции (таблица 3) показывает, что переменная Х4 (жилая площадь квартиры, кв. м.) имеет тесную связь с Y (стоимость квартиры, тыс. долл.). Коэффициент корреляции достаточно высокий (ryx4=0,826390243) и положительный (1>ryx4>0), поэтому мы можем предположить тенденцию возрастания стоимости квартиры (Y) при возрастании жилой площади квартиры (Х4). Переменные Х5 (этаж квартиры) и Х6 (площадь кухни, кв. м.) имеют слабую связь с Y (стоимость квартиры, тыс. долл.)
1.2 Оценка статистической значимости коэффициентов парной корреляции с использованием t - критерия Стьюдента.
Критическое значение t-критерия (tтабл.) берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.
Число степеней свободы k=n-2 = 40-2 = 38
Выбираем уровень значимости ?= 0,05
(tтабл.) можно определить с использованием надстройки Excel:
Выбираем пустую ячейку. Функция-СТЬЮДРАСПОБР-задаем вероятность = 0,05 и степени свободы =38- ОК
tтабл. = 2,0244 при (?=0,05; k=n-2=38)
Сравниваем числовые значения критериев: если tрасч > tтабл., то полученное значение коэффициента корреляции значимо.
tрасч. ух4 > tтабл. ; 9,0333> 2,0243
tрасч. ух5 < tтабл. ; 0,9122 < 2,0243
tрасч. ух6 < tтабл. ; 1,7789 < 2,0243
Вывод: Полученные значения коэффициентов корреляции:
ry,x4 - значимо;
ry,x5 - незначимо;
ry,x6 - незначимо.
Коэффициент корреляции ry,x4 = 0,826390243 имеет наибольшую величину и является наиболее значимым. Величина критерия tрасч. ух6 незначительно отличается от табличного значения, поэтому коэффициент корреляции ry,x6 =0,277274009 мы исключаем из дальнейших расчетов, как наименее значимый и ry,x5 = 0,146382617 исключаем как незначимый.
Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.
Ответ:
Построив график, можно определить, линейны ли зависимости между Y (ценой квартиры) и влияющим фактором Х3 (общей площадью квартиры).
Ответ:
График1
График 2
Вывод: : Полученное корреляционное поле (График 1) иллюстрирует линейную взаимосвязь цены квартиры (Y) от наиболее тесно связанного с ним фактора - общей площади (Х4), характеризующуюся незначительным разбросом точек от прямой (График 2). По мере того как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина rху будет ближе к единице.
3. Рассчитайте параметры линейной парной регрессии для каждого фактора Х.
3.1. Рассчитаем параметры линейной парной регрессии для фактора Х4, для чего воспользуемся инструментом Exсel:
Во вкладке «Сервис» функция «Анализ данных» выберем в качестве инструмента анализа «Регрессия», отметив входной интервал для значений Y и входной интервал для значений Х, получим вывод итого на другом листе книги Excel:
Таблица 4
После проведенного анализа уравнение будет иметь следующий вид:
yi=-1,301726242+2,396718022x4
3.2.Рассчитаем параметры линейной парной регрессии для фактора Х6, для чего воспользуемся инструментом Exсel:
Таблица 5
После проведенного анализа уравнение будет иметь следующий вид:
yi=33,372954673+5,994758361x6
Рассчитаем параметры линейной парной регрессии для фактора Х5, для чего воспользуемся инструментом Exсel:
Таблица6
После проведенного анализа уравнение будет иметь следующий вид:
yi=80,3428847081+1,887569544x5
Решение:
Для проведения регрессионного анализа с использованием надстройки Excel:
Выбераем команду Сервис?Анализ данных.
В диалоговом окне Анализ данных выбираем инструмент Регрессия.
В диалоговом окне Регрессия в поле Входной интервал Y вводим вместе с надписями адрес одного диапазона ячеек, который представляет зависимую переменную. В поле Входной интервал Х вводим с надписями адреса одного или нескольких диапазонов, которые содержат значения независимых переменных. По очереди вводим Х3,Х5,Х6, три модели.
Так как выделены и заголовки столбцов, то устанавливаем флажок Метки в первой строке. отмечаем галочками: уровень надежности 95%, новый рабочий лист, остатки, график подбора и график остатков -ОК
Получаем три протокола, три уравнения парной регрессии, вывод остатков, графики подбора и остатков для каждого Х.
Основная задача регрессионного анализа заключается в исследовании зависимости изучаемой переменной от различных факторов и отображении их взаимосвязи в форме регрессионной модели.
Линейное уравнение связи двух переменных (парную регрессию) представим в виде:
уi=?+?*хi+?i, (3)
где ? – постоянная величина (или свободный член уравнения);
? – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений.
?i – случайная составляющая отражает тот факт, что изменение уi будет неточно описываться изменением Х, поскольку присутствуют другие факторы, неучтённые в данной модели.
Систематическую часть можно представить в виде уравнения:
yi=?+?*хi
Коэффициент регрессии ? характеризует изменение переменной уi при изменении значения хi на единицу. Если ?>0, переменные хi и уi положительно коррелированны и имеют прямую связь, если ?<0 – отрицательно коррелированны и имеют обратную связь.
Оценки наименьших квадратов:
Коэффициент регрессии ? вычисляется по формуле:
EMBED Equation.2
EMBED Equation.2
При EMBED Equation.3 ? 0
Вычислим Коэффициент регрессии ? для фактора Х4 используя Exсel:
Функция - ЛИНЕЙН - (известные_значения_у: выделяем значения столбца Y; известные_значения_х: выделяем значения столбца Х4; константа: выделяем значение коэффициента Y-пересечение из протокола; статистика: выделяем значение t-статистика для Y-пересечение из протокола)- ОК
или используем следующие формулы:
Таблица 7
Таблица 8
Вывод: Для первого уравнения ?=-1,301726242 не имеет экономической целесообразности, так как при общей площади квартиры равной нулю, стоимость тоже будет равна нулю.
Для всех трех уравнений ?>0, переменные Хi (жилая площадь квартиры, этаж квартиры и площадь кухни) и yi (цена квартиры) положительно коррелированны и имеют прямую связь.
4) Оценим качество каждой модели через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера. Выбираем лучшую. (Модель для Х4, модель для Х5, модель для Х6).
Ответ:
Лучшая модель парной регрессии фактора Х4;
y4=-1,301726242+2,396718022x4,
Поскольку только для этой модели Fрасч > Fтабл (Fyx4=81,84>4,098172), уравнение регрессии следует признать адекватным. Коэффициент детерминации (R2=0,683) высокий, близкий к 1, хорошее качество модели. 68% вариации зависимой переменной Y учтено в модели и обусловлено влиянием включенного фактора Х3 (общая площадь квартиры). Самое меньшее значение средней ошибки аппроксимации EMBED Equation.3=26,25 % , то есть самое меньшее рассеяние.
4.1 Коэффициент детерминации: EMBED Equation.3
R2=R2yxEMBED Equation.3xEMBED Equation.3=1- EMBED Equation.3 =1-32788,02/103406,41=1-0,317=0,683 (для Х4), 68%.
Коэффициент детерминации показывает, что около 68% вариации зависимой переменной Y учтено в модели и обусловлено влиянием на него включённых факторов.
R2=1- 101190,6/103406,41=1-0,978=0,022 (для Х5), 2,2%,
Коэффициент детерминации очень низкий, близкий к 0, фактор почти не влияет на Y (стоимость квартиры).
R2=1-95456,44/103406,41=1-0,923=0,077 (для Х6), 7,7%.
Коэффициент детерминации очень низкий, близкий к 0, фактор почти не влияет на Y (стоимость квартиры).
Наиболее удачная модель для фактора Х4; y4=-1,301726242+2,396718022x4,
4.2 Для оценки качества регрессионных моделей рассчитаем величину средней ошибки аппроксимации EMBED Equation.3 для всех факторов.
Средняя относительная ошибка аппроксимации вычисляется по формуле:
Подставляя в уравнения регрессии фактические значения факторов Хi, найдем yi
Вычисляем остаток ei , который представляет собой отклонение фактического значения зависимой переменной от ее значения, полученного расчетным путем.
ei= yi ? yi
Или берем из таблицы (9,10,11)
EMBED Equation.3
Для того чтобы получить значение ei/yi по модулю ¦ei/yi¦*100 необходимо воспользоваться функцией Exсel – функция -ABS (выделяем значение e1, / на y1*100), а затем суммировать столбец и разделить на n.
Для Х6 уравнение регрессии: yi=33,37+5,99x6
Найдём величину средней ошибки аппроксимации EMBED Equation.3:
EMBED Equation.3=48,60%. (5)
Для Х5 уравнение регрессии: yi=80,34+1,88x5
EMBED Equation.3= 45,74%.
Для Х4 уравнение регрессии: y4=-1,301726242+2,396718022x4,
EMBED Equation.3=26,25%.
EMBED Equation.3 < 7% свидетельствует о хорошем качестве модели. Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации.
Наиболее удачная модель для фактора Х4; y4=-1,301726242+2,396718022x4,
4.3 Проверку значимости проведём на основе F-критерия Фишера:
F=EMBED Equation.3, (6)
Если расчётное значение с ?1=k и ?2=n-k-1 степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости ?, то модель считается значимой.
Значение F-критерия Фишера можно найти в таблице «Дисперсионный анализ» протокола EXCEL (см. табл. 4, 5, 6).
Для Х6 - F= 3,1647, для Х5 - F= 0,8320, для Х4 - F=81,84.
Табличное значение F-критерия можно найти EXCEL: Fтабл.= 4,098172
Функция – FРАСПОБР - при доверительной вероятности 0,05;
Степень свободы 1 EMBED Equation.3= k =1;
Степень свободы 2 EMBED Equation.3= n – k -1= 40 - 1 - 1=38
Fyx4 = 81,8438879 > Fтабл.= 4,098172
Fyx5=0,832088977< Fтабл.= 4,098172
Fyx6=3,164784713 < Fтабл.= 4,098172
Поскольку только для модели фактора Х4; y4=-1,301726242+2,396718022x4 Fрасч > Fтабл, уравнение регрессии следует признать адекватным.
5) Осуществить прогнозирование для лучшей модели среднего значения показателя Y при уровне значимости ?=0,1, если прогнозное значение фактора Х составит 80% от его максимального значения. Представить графически: фактические и модельные значения, точки прогноза.
Yсред=93,65 тыс. долл.
Хпрогн=84*80%/100=67,2 м2 Х4max=84
Для того, чтобы определить цену квартиры при жилой площади квартиры 67,2 м2, необходимо подставить значение Хпрогн в полученную модель (уi=?+?*хi=-1,30+2,3967x4):
Упрогн=-1,30+2,3967* Хпрогн =-1,30+2,3967*67,2=159,98 тыс. долл.
Вероятность реализации точечного прогноза теоретически равна нулю, поэтому рассчитаем доверительный интервал прогноза с заранее заданной вероятностью ?=0,1
Величину отклонения от линии регрессии вычисляют по формуле ?i=уi- EMBED Equation.3 , Вычисляем ?i или берем значение EMBED Equation.3 = 32788,01856 из протокола регрессионного анализа Excel (пересечение SS – сумма квадратов и Остаток) для фактора Х4 (Таблица 4 )
Величину стандартной ошибки S? находят по формуле:
S?=EMBED Equation.3=29,37. (7)
Табличный коэффициент t-критерия (t?.) Стьюдента при степени свободы ?=(n-2)=40-2=38 и заданном уровне значимости ?=0,1 берется из таблицы значений или определяется с использованием надстройки Excel:
Выбираем пустую ячейку. Функция-СТЬЮДРАСПОБР-задаем вероятность ?= 0,1 и степени свободы ?=38- ОК
t?. = 1,685954461 при (?=0,1; ?=38)
Доверительный интервал для прогнозов индивидуальных значений уi определяется из соотношения:
упрогн = EMBED Equation.3 .
упрогн € [ y прогн ± Ui ]
Ui = EMBED Equation.3
U(x=67,2,n=40,?=0,1)=29,37*1,685954*EMBED Equation.3=51,623.
Таким образом, прогнозное значение EMBED Equation.3=159,98 будет находиться между верхней границей, равной 159,98+51,623=211,60 и нижней границей, равной 159,98-51,623=108,36.
Представим графически исходные данные результаты моделирования и результаты прогнозирования, для чего воспользуемся «мастером диаграмм» в программном продукте Excel:
6) Используя пошаговую множественную регрессию (метод исключения или метод включения), построить модель формирования цены квартиры за счёт значимых факторов. Дать экономическую интерпретацию коэффициентов модели регрессии.
Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии:
EMBED Equation.3 метод включения – дополнительное введение фактора;
EMBED Equation.3 метод исключения – отсев факторов из полного его набора.
Вторая схема пошаговой регрессии основана на последовательном
Исключении факторов с помощью t-критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение t-критерия. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t-критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.
Решение: Используя пошаговую регрессию (метод исключения), построим модель формирования цены квартиры в зависимости от значимых факторов.
Шаг 1: Построим модель линейной регрессии формирования цены квартиры от всех трех факторов (Х4, Х5, Х6):
Y = -12,072022 + 2,3759936Х4 + 1,371439Х5 +0,1912182Х6
Проанализируем полученные данные, используя протокол линейной регрессии (Таблица11):
Коэффициент детерминации (R2=0,6950366) и (R2 нормированный=0,669623) высокий, значимость модели (F=2,145E-09) очень низкая, практически не значимая, вычисляем табличное значение t-критерия Стьюдента=2,028 (при вероятности=0,05) и сравниваем с табличными значениями t-статистика, значим только один фактор Х4, такой моделью пользовать нельзя, так как все факторы, используемые в модели, должны быть значимыми. Исключаем фактор Х6 с самым низким значением по модулю t-статистика=0,083988.
Шаг 2: Построим модель линейной регрессии формирования цены квартиры от двух факторов (Х4, Х5):
Y = -10,73261 + 2,3825655Х4 - 1,4172437Х5
Проанализируем полученные данные, используя протокол линейной регрессии (Таблица12):
Коэффициент детерминации (R2=0,6949769) и (R2 нормированный=0,6784892) высокий. Значимость модели (F=2,885E-10) еще ухудшилась, по сравнению с первой моделью - очень низкая, практически не значимая. Вычисляем табличное значение t-критерия Стьюдента=2,028 (при вероятности = 0,05) и сравниваем с табличными значениями t-статистика, значим только один фактор Х4, такой моделью пользовать нельзя, так как все факторы, используемые в модели, должны быть значимыми. Исключаем фактор Х6 с самым низким значением по модулю t-статистика= 1,20931.
Ответ: Получили однофакторную модель со значимым фактором Х4
у=-10,73+2,38X4 (см. табл. ).
Коэффициент детерминации (R2=0,68292083) высокий хорошее качество модели. 68% вариации зависимой переменной Y учтено в модели и обусловлено влиянием включенного фактора Х4 (жилой площади квартиры). Значимость модели (F=5,12E-11) еще ухудшилась, по сравнению с первой и второй моделью - очень низкая, практически не значимая. Вычисляем табличное значение t-критерия Стьюдента=2,028 (при вероятности=0,05) и сравниваем с табличными значениями t-статистика=9,046761>2,028 - tтабл., фактор Х4 – значим.
Из данного уравнения видно, как коэффициенты уравнения регрессии показывают – что при увеличении общей площади квартиры на один квадратный метр цена квартиры увеличивается на 2,38 тысяч долларов.
7) Оценить качество построенной модели. Дать оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, ?- и ?-коэффициентов.
Качество модели осталось прежним, модель уравнения парной регрессии со значимым фактором не изменилась.
Коэффициент детерминации (R2= 0,674576) высокий хорошее качество модели. 68% вариации зависимой переменной Y учтено в модели и обусловлено влиянием включенного фактора Х4 (жилая площадь квартиры).Вычисляем табличное значение t-критерия Стьюдента=2,028 (при вероятности=0,05) и сравниваем с табличными значениями t-статистика= 9,04676 >2,028 - tтабл., фактор Х4 – значим. Средняя относительная ошибка аппроксимации Е=26,25%
7.1. Качество модели регрессии проверяется на основе анализа остатков регрессии ?. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности почти независимые) одинаково распределённые случайные величины.
Построим график остатков регрессии и проведем его визуальный анализ. Предсказываемые уравнением регрессии значения результата EMBED Equation.3 и остатков EMBED Equation.3 (t=1, 2, …, n; n=40) приведены в таблице 15
Проверку не зависимости проведем с помощью d-критерия Дарбина-Уотсона. Определяем по формуле:
EMBED Equation.3
Критические значения d-критерия для числа наблюдений n=40 и уровня значимости а=0,05 составляют d1=1,44 и d2=1,54 (см. приложение). Так как расчетное значение не попало в интервал d1и d2 то данные показывают отсутствие автокорреляции.
7.2. Чтобы оценить нарушение гомоскедастичности по тесту Голдфельда - Квандта необходимо выполнить следующие шаги.
Упорядочение п наблюдений по мере возрастания переменной х.
Исключение средних наблюдений ( должно быть примерно равно четверти общего количества наблюдений).
Разделение совокупности на две группы (соответственно с малыми и большими значениями фактора ) и определение по каждой из групп уравнений регрессии.
Определение остаточной суммы квадратов для первой регрессии и второй регрессии .
Вычисление отношений (или ). В числителе должна быть большая сумма квадратов.
Полученное отношение имеет F распределение со степенями свободы k1=n1-k и k2=n-n1-k, (k– число оцениваемых параметров в уравнении регрессии).
Если , то гетероскедастичность имеет место.
Чем больше величина F превышает табличное значение F -критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
Проверку значимости уравнения регрессии произведем на основе вычесления F-критерия Фишера:
F=10206,66/6067,613=1,685
При доверительной вероятности 0,95 при ?1=k=14 и ?2=14 оно составляет Fтаб= 2,48.
Поскольку Fрасч <Fтабл, гетероскедастичность отсутствует. Таблица(16,17,18)
7.3. Эластичность Y по отношению к Х(j) определяется как процентное изменение Y, отнесенное к соответствующему процентному изменению Х. В общем случае эластичности не постоянны, они различаются, если измерены для различных точек на линии регрессии. По умолчанию стандартные программы, оценивающие эластичность, вычисляют ее в точках средних значений:
Эластичность не нормирована и может изменяться от - до + . Важно, что она безразмерна, так что интерпретация эластичности =2.0 означает, что если изменится на 1%, то это приведет к изменению на 2%. Если =-0.5, то это означает, что увеличение на 1% приведет к уменьшению на 0.5%.
Высокий уровень эластичности означает сильное влияние независимой переменной на объясняемую переменную.
Эх4=2,3967*39,62/93,65=1,013
Э.=1,14 означает, что если среднее значение общей площади квартиры EMBED Equation.3 =39,6175, изменится на 1%, это приведет к изменению EMBED Equation.3 =93,65025 среднего значения цены квартиры на 1,013%
где Sxj — среднеквадратическое отклонение фактора j
где .
SІх4=1/39*12293,73=17,75 SІу=1/39*103406,41=51,49
?х4=2,3967*17,75/51,49=0,8262
Итак, коэффициент Bх4 показывает, что при увеличении жилой площади квартиры на 17,75 кв. м. цена квартиры увеличится на 42,22 тыс. дол.(0,826*51,49) .
Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора j на один процент. Однако он не учитывает степень колеблемости факторов.
Бета-коэффициент показывает, на какую часть величины среднего квадратического отклонения Sy изменится зависимая переменная Y с изменением соответствующей независимой переменной Хj на величину своего среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных.
Указанные коэффициенты позволяют упорядочить факторы по степени влияния факторов на зависимую переменную.
Долю влияния фактора в суммарном влиянии всех факторов можно оценить по величине дельта - коэффициентов ? (j):
,где — коэффициент парной корреляции между фактором j (j = 1,...,m) и зависимой переменной.
?х4=0,8263*0,8262/0,683=1
ЗАДАЧА 2: Эконометрическое моделирование стоимости квартир в московской области.
В течение девяти последовательных недель фиксировался спрос Y(t) (млн. руб.) на кредитные ресурсы финансовой компании. Временной ряд Y (t) этого показателя приведен ниже:
Требуется:
2.1. Проверить наличие аномальных наблюдений.
2.2. Построить линейную модель, параметры которой оценить МНК.
2.3. Оценить адекватность построенной модели, используя свойства независимости остаточной компоненты, случайности и соответствия нормальному закону распределения (при использовании R/S – критерия взять табулирование границы 2,7-3,7).
2.4. Оценить точность модели на основе использования средней относительной ошибки аппроксимации.
2.5. Осуществить прогноз спроса на следующие две недели (доверительный интервал прогноза рассчитать при доверительной вероятности р = 70 %).
2.6. Фактические значения показателя, результаты моделирования и прогнозирования представить графически.
При решении данной задачи воспользуемся программным продуктом Excel.
2.1. Проверить наличие аномальных наблюдений:
Выявление аномальных наблюдений является обязательной процедурой этапа предварительного анализа данных, т.к. наличие аномальных наблюдений приводит к искажению результатов моделирования, для вычисления аномальных наблюдений я использовала следующие формулы:
, где
В результате чего получилась следующая таблица:
Теперь получив расчетное значение критерия Ирвина, сравним его с табличным значением и сделаем выводы: Так как табличное значение критерия Ирвина (критическое значение) равно 1,5 (при P = 0,95), следовательно, аномальные наблюдения отсутствуют.
2.2. Построить линейную модель, параметры которой оценить МНК:
С помощью программного продукта Exсe во вкладке «Сервис» функция «Анализ данных» выберем в качестве инструмента анализа «Регрессия», в качестве входного интервала Y отметив значения массива Y(t) и в качестве входного интервала Х отметим значения массива t, получим вывод итого на другом листе книги Excel:
После проведенного анализа уравнение будет иметь следующий вид
Y = 46,75- 2,28 t
2.3. Оценить адекватность построенной модели, используя свойства независимости остаточной компоненты, случайности и соответствия нормальному закону распределения (при использовании R/S – критерия взять табулирование границы 2,7-3,7):
2.3.1 При проверке независимости (отсутствия автокорреляции) используется критерий Дарьина-Уотсона, который вычисляется по формулам:
EMBED Equation.3
Ранее были рассчитаны параметры линейной регрессии при помощи инструмента Excel «Анализ данных» и был получен результат в котором существует таблица «ВЫВОД ОСТАТКА», используя эти данные можно рассчитать критерий независимости:
Вычисленное значение критерия Дарбина-Уотсона dw = 2,075>2, следовательно, значение автокорреляционных остатков отрицательно. Преобразование dw ‘ = 4 – dw = 1,92.
Табличные значения d1 = 0,82, d2 = 1,32 (при а=0,05, n = 9; k = 1)
Так как dw ‘ попало в интервал от d2 до 2, то по данному критерию можно сделать вывод о выполнении свойства независимости. Это означает, что в ряде динамики не имеется автокорреляция, модель по этому критерию адекватна.
2.3.2 Проверку случайности проведем на основе критерия поворотных точек, их количество определим с помощью Графика остатков:
Проведя анализ графика остатков можно сделать вывод, что Р (поворотная точка) = 5, следовательно N (количество наблюдений) =9;
Но для того что бы можно было сделать вывод необходимо рассчитать критерий случайного отклонения по формуле с вероятностью 95 %:
EMBED Equation.3
Теперь сравнив Р = 5 и Р расч. = 2,45 и убедившись в выполнении неравенства Р > P расч. можно сделать вывод что свойство случайности выполняется и модель по этому признаку считается адекватной.
2.3.3. Соответствие ряда остатков нормальному закону распределения определим с помощью RS-критерия по формуле:
EMBED Equation.3
где
RS = 2,67+1,6167/v15,8944/9-1=3,042
Используя полученный результат «Регрессионного анализа» таблицу «ВЫВОД ОСТАТКА» можно рассчитать RS-критерий по формуле приведенной выше и получить следующий результат:
е max = 2,67
e min =-1,6167
RS = 3,042
При расчете RS-критерия для вычисления e max я использовала функцию Exсel МАКСА (массив), а для вычисления e min функцию Exсel МИНА (массив). По условию задачи табулирование границы 2,7-3,7, т.к. RS = 3,042, следовательно это значение попадает в интервал от 2,7 до 3,7, то выполняется свойство нормальности распределения и модель по этому признаку можно признать адекватной.
2.4. Оценить точность модели на основе использования средней относительной ошибки аппроксимации:
Для вычисления средней относительной ошибки аппроксимации воспользуемся следующей формулой:
EMBED Equation.DSMT4
Е = 1/9*0,2826*100%=3,14%
Вывод: Значение E отн. = 3,14 % что много < 7 %, и соответственно можно сделать вывод, что качество модели хорошее.
2.5. Осуществить прогноз спроса на следующие две недели (доверительный интервал прогноза рассчитать при доверительной вероятности р = 70 %):
- Для вычисления точечного прогноза в модель подставим соответствующие значения фактора t = n + k (так как по условию задачи необходимо осуществить прогноз на следующие две недели, а наши наблюдения были проведены в течение девяти недель подряд, то k = 1 и k = 2). Для определения Y (t) прогн. Необходимо подставить t = 10 и t =11,
это уравнение Y = 46,75- 2,28 t
Y(t)10 = 46,75- 2,28 *10 = 23,95
Y(t)11 = 46,75- 2,28 *11 = 21,67
- Для построения интервального прогноза рассчитаем доверительный интервал, при уровне значимости равной 0,3 и доверительной вероятности 70 %.
Ширину доверительного интервала рассчитаем по формуле:
EMBED Equation.DSMT4
где EMBED Equation.DSMT4
Критерий Стьюдента вычислим с помощью функции Exсel СТЬЮДРАСПОБР(уровень значимости = 0,3;степень свободы = 9 - 2 = 7) следовательно ta = 1,12. Ранее были рассчитаны параметры линейной регрессии при помощи инструмента Excel «Анализ данных» и был получен результат, в котором существует таблица «Регрессионная статистика», откуда можно использовать уже рассчитанное значение Se = 1,472769.
Se =1,4728 U1=1,4728*1,12*v1+1/9+25/60=2,038
ta =1,12 U2=1,4728*1,12*v1+1/9+36/60=2,157
N=9
t ср=5
Прогноз спроса на предоставленные ресурсы финансовой компании на следующие две недели составит на 10неделю 23,95 млн.руб, на 11 неделю 21,67 млн.руб
2.6. Фактические значения показателя, результаты моделирования и прогнозирования представить графически:
Вывод: С каждой неделей спрос на кредитные ресурсы финансовой компании снижается.