Задача
По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.).
Требуется:
Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.
Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков S2? ; построить график остатков.
Проверить выполнение предпосылок МНК.
Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (?=0,05).
Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью f-критерия Фишера (?=0,05), найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.
Осуществить прогнозирование среднего значения показателя Y при уровне значимости ?=0,1, если прогнозное значение фактора X составит 80% от его максимального значения.
Представить графически фактическое и модельное значение Y точки прогноза.
Составить уравнения нелинейной регрессии:
– гиперболической;
– степенной;
– показательной.
Привести графики построенных уравнений регрессии.
Для указанных моделей найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.
Решение.
Задача 1. Уравнение линейной регрессии имеет вид: EMBED Equation.3 . А значения параметров а и b линейной модели можно определить по данным формулам:
EMBED Equation.3 , EMBED Equation.3 .
С помощью ППП Excel найдем параметры уравнения линейной регрессии. Порядок выселения следующий:
1. Активизируем инструмент Пакет анализа:
1.1. Сервис >Настройки;
1.2. В диалоговом окне Настройки отметим пункт Пакет анализа> ОК.
2. Ведем исходные данные;

Рис. 1. Исходные данные
3. Сервис > Анализ данных > Регрессия>ОК;
4. Заполним диалоговое окно ввода данных и параметров вывода:

Рис. 2. Диалоговое окно ввода параметров инструмента Регрессия
Результаты регрессионного анализа для данных представлены на рис. 3.

Рис. 3. Результат применения инструмента Регрессия
В ячейках В17 и В18 расположены значения параметров а и b соответственно. Итак, уравнение регрессии имеет вид: EMBED Equation.3 .
Коэффициент регрессии b показывает, что с ростом капиталовложений на 1 млн. руб. выпуск продукции увеличивается в среднем на 2,40 млн. руб.
Задача 2. Остатки определяются по формуле: EMBED Equation.3 . Соответственно остаточная сумма квадратов определяется по формуле: EMBED Equation.3 .
На рис. 3. в ячейках С25:С34 уже вычислены остатки. А остаточную сумму квадратов найдем с помощью ППП Excel, использую функцию ПРОИЗВЕД. Результаты вычислений приведены на рис. 6.

Рис. 4. Остаточная сумма квадратов
Итак, остаточная сумма квадратов равна 25,96– она также вычислена с помощью Регрессии (ячейка D13).
Дисперсия остатков определяется по формуле: EMBED Equation.3 .
Поскольку остаточная сумма квадратов вычислена и равна 25,96, а количество наблюдений 10, то можно найти дисперсию остатков. Результат вычисления приведен на рис. 4 в ячейке В37.
Итак, дисперсия остатков составляет 25,96 (она также вычислена с помощью Регрессии – рис. 3, ячейка D13).
График остатков уже построен с помощью инструмента Анализа данных Регрессия (рис. 3). Приведем график остатков в отдельный вид.

Рис. 5. График остатков
Задача 3. Проверим выполнение предпосылок МНК. Свойства коэффициентов регрессии существенным образом зависят от свойств случайной составляющей. Для того чтобы МНК давал наилучшие результаты, должны выполняться условия Гаусса- Маркова.
Условие 1. Математическое ожидание случайной составляющей в любом наблюдении должно быть равно нулю: М(?i)=0.
В нашем случае уравнение регрессии включает постоянный член и, следовательно, это условие выполняется автоматически.
Условие 2. Случайная составляющая (?i) или зависимая переменная (yi)есть величины случайные, а независимая величина (xi)– величина неслучайная: EMBED Equation.3 . Проверим выполнение данного условия с помощью критерия поворотных точек, для этого постоим дополнительную таблицу.
Таблица 1
Р- число поворотных точек. В нашем примере Р=6.
EMBED Equation.3 ;
EMBED Equation.3 ;
EMBED Equation.3 ;
EMBED Equation.3 ;
Р> 2,99; т.е. 6>2,99. Следовательно, условие выполняется.
Итак, случайная составляющая (?i) или зависимая переменная (yi) есть величины случайные.
Условие 3. Случайная переменная в любых двух наблюдениях независима.
Чтобы проверить выполнение данного условия, с помощью ППП Excel вычислим dw-критерий Дарбина - Уотсона: EMBED Equation.3 .
Т.к. остатки и остаточная сумма квадратов уже вычислены (рис. 5),то для нахождения dw-критерий Дарбина – Уотсона нужно найти (?i-?i-1) и (?i-?i-1)2.

Рис. 6. Вычисление dw-критерия Дарбина-Уотсона
Итак, dw=1,70. Поскольку dw > d2 (d2 = 1,36) , но dw < 2, т.е. в нашем случае автокорреляции нет, следовательно, условие выполняется.
Условие 4. Дисперсия случайной составляющей должна быть постоянной для всех наблюдений. Это условие гомоскедастичности, или равноизменчивости случайной составляющей (возмущения).
Чтобы проверить выполняется то условие или нет, применим тест Голдфельда-Квандта.
Шаг 1. Упорядочим n наблюдений по мере возрастания переменной x.
Шаг 2. Разделим совокупность на две группы и определим по каждой из групп уравнения регрессии.
Рис. 7. Деление совокупности на две группы
Определим по каждой из групп уравнения регрессии помощью инструмента Анализа данных Регрессия. Заполним диалоговое окно для первой группы:

Рис. 8. Регрессия (первая группа)

Рис. 9. Вывод итогов для первой группы
В ячейках В17 и В18 на Листе 2 (рис. 9) расположены значения параметров а и b соответственно. Итак, уравнение регрессии первой группы имеет вид:
y1 = 18,02+2,26X.
Заполним диалоговое окно для второй группы:

Рис. 10. Регрессия (вторая группа)

Рис. 11. Вывод итогов для второй группы
В ячейках В17 и В18 на Листе 3 (рис. 11) расположены значения параметров а и b соответственно. Итак, уравнение регрессии второй группы имеет вид:
y2 = 13,07+2,42·x.
Шаг 3. Определим остаточную сумму квадратов для первой регрессии:
EMBED Equation.3
Остаточная сумма квадратов для первой регрессии уже вычислена с помощью инструмента Анализа Данных - Регрессии и равна 139,15 (рис. 9, ячейка С 13).
Остаточная сумма квадратов для второй регрессии определяется по формуле:
EMBED Equation.3 .
Остаточная сумма квадратов для второй регрессии тоже уже вычислена с помощью инструмента Анализа данных и равна 66,26 ( рис. 11, ячейка С 13).
Таким образом, EMBED Equation.3 =139,15; EMBED Equation.3 =66,26. Шаг 4. Вычислим наблюдаемое значение F-критерия Фишера, как отношение величин: EMBED Equation.3 (или EMBED Equation.3 ).
EMBED Equation.3 =139,15/66,26=2,1
Шаг 5. F - наблюдаемое сравним с F – табличным. F-наблюдаемое уже вычислено и составляет 2,1.
Табличное значение F-критерия Фишера при доверительной вероятности 0,05 при ?1=1 и ?2=8 можно найти с помощью функции FРАСПОБР.

Рис. 12. Результаты вычислений
Итак, 2,1<5,32 (F набл <F табл). Следовательно, гомоскедастичность имеет место, т.е данное условие выполняется.
Условие 5. Предположение о нормальности распределения случайного члена. Проверим его с помощью R/S-критерия, который находиться по формуле:
EMBED Equation.3 , где EMBED Equation.3 .
EMBED Equation.3 уже вычислено с помощью инструмента Анализа данных Регрессии и составляет 5,09 (стр. 4, рис. 3, ячейка B7), а ?max= 8,066 и ?min=-6,540. Тогда
EMBED Equation.3 .
Итак, RS-критерий равен 0,299. Т.к. RS-критерий не попадает в интервал от 2,7 до 3,7 , то, следовательно, остатки не отвечают нормальному закону распределения.

Задача 4. Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (?=0,05): EMBED Equation.3 .
Значения t-критерия вычисляются по формулам: EMBED Equation.3 ; EMBED Equation.3 .
Данные значения ta и tb уже вычислены с помощью Регрессии (рис. 3) – ячейки D17 и D18 соответственно и составляют ta= 2,158; tb = 15,648. Рассчитаем табличное значение t-критерия Стьюдента (?=0,05) с помощью функции СТЬЮДРАСПОБР.

Рис. 14. Аргументы функции СТЬЮДРАСПОБР

Рис. 15. Результат вычисления
Итак, табличное значение t-критерия при 5% - ном уровне значимости и степенях свободы составляет 2,306. Так как tа>tтабл и tb>tтабл, то параметры a и b уравнения регрессии значимы.
Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (?=0,1) с помощью функции СТЬЮДРАСПОБР.

Рис. 16. Результат вычисления tтабл (?=0,1)
Итак, табличное значение t-критерия при уровне значимости и степенях свободы составляет 1,859548033. Так как tа>tтабл и tb>tтабл, то параметры a и b уравнения регрессии значимы.
Задача 5. В случае линейной зависимости между переменными парный коэффициент корреляции является показателем тесноты связи и определяется по формуле:
EMBED Equation.3 .
Коэффициент корреляции в нашем примере уже вычислен с помощью инструмента Excel Регрессии (рис. 3, стр. 4) – ячейка В4, который равен 0,98405.
По шкале Чеддока коэффициент корреляции попал в интервал от 0,9 до 1, следовательно, это говорит о весьма высокой связи.
Долю дисперсии, объясняемую регрессией в общей дисперсии результативного признака y, характеризует коэффициент детерминации:
EMBED Equation.3 .
Коэффициент детерминации в нашем примере уже вычислен с помощью инструмента анализа Регрессии (рис. 3, ячейка В5) и составляет 0,96836.
Значимость уравнения регрессии y=13,89+2,40x определяется с помощью F-критерия Фишера (?=0,05) используя данную формулу: EMBED Equation.3 .
EMBED Equation.3 .
Табличное значение F-критерия Фишера при доверительной вероятности 0,05 при ?1=1 и ?2=8 уже вычислено с помощью функции FРАСПОБР и составляет 5,31766. Поскольку Fрасч>F табл, уравнение регрессии следует признать значимым.
Коэффициент эластичности для линейной функции определяется по формуле:
EMBED Equation.3 .
Таким образом, EMBED Equation.3 .
Это значит, что если фактор измениться на 1%, то в среднем на 0,87% измениться результат.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют относительную ошибку аппроксимации:
EMBED Equation.3 .
Вычислим относительную ошибку аппроксимации с помощью Excel.

Рис.17. Результаты вычислений относительной ошибки аппроксимации
Итак, относительная ошибка аппроксимации составила 3,86%, что говорит о качественной модели.
Задача 6. Осуществим прогнозирование среднего значения показателя Y при уровне значимости ?=0,1, если известно, что прогнозное значение фактора Х составит 80% от его максимального значения.
Прогнозное значение переменной y получается при подстановке в уравнение регрессии ожидаемого значения x: EMBED Equation.3 , где EMBED Equation.3 .
В нашем случае EMBED Equation.3 .Отсюда EMBED Equation.3 .
Вероятность реализации точечного прогноза равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большей надежностью. Доверительные интервалы зависят от стандартной ошибки, удаления EMBED Equation.3 от своего среднего значения EMBED Equation.3 , количества наблюдений n и уровня значимости прогноза ?.В частности, для прогноза будущие значения EMBED Equation.3 с вероятностью (1-?) попадут в интервал:
EMBED Equation.3 .
Ширина доверительного интервала определяется по формуле:
EMBED Equation.3 .
Величина EMBED Equation.3 уже вычислена (рис. 3, ячейка В7) и равна 5,0958. Коэффициент Стьюдента EMBED Equation.3 для m=8 степеней свободы и уровня значимости 0,1 равен 1,859548033 Произведем дополнительные расчеты:

Рис. 18. Дополнительные расчеты
Тогда:
EMBED Equation.3 .
Итак, получены границы:
Таблица 2.
Задание 7. Представим графически фактические и модельные значения Y точки прогноза, а для этого построим таблицу.

Рис. 20. Дополнительная таблица
Упорядочим значения по X по возрастанию и в результате получим:

Рис. 21. Сортировка по возрастанию Х
С помощью Мастер диаграмм я получила график:

Рис. 22. Диаграмма
Где ряд1-Y,ряд2-Y,ряд 3-нижняя граница,ряд4-верхняя граница.
Задание 8.
а) Составим уравнение гиперболической модели парной регрессии.
Уравнение гиперболической функции имеет вид: EMBED Equation.3 .
Произведем линеаризацию модели путем замены Х=1/х. В результате получим линейное уравнение: EMBED Equation.3 . Рассчитаем его параметры по формулам:
EMBED Equation.3 ; EMBED Equation.3 .
Построим дополнительную таблицу и произведем расчеты.

Рис. 22. Результаты вычислений параметров гиперболической функции
EMBED Excel.Chart.8 \s
Рис. 23. гиперболическая функция
Итак, b = -3293,9 и а = 198,7616. Получим следующее уравнение гиперболической модели: EMBED Equation.3 .
б) Уравнение степенной модели имеет вид: EMBED Equation.3 . Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: EMBED Equation.3 .
Пусть Y= EMBED Equation.3 , Х= EMBED Equation.3 , А= EMBED Equation.3 , тогда уравнение примет вид Y=A+bX – линейное уравнение регрессии. Рассчитаем его параметры по формулам:
EMBED Equation.3 ; EMBED Equation.3 .
Построим дополнительную таблицу и произведем расчеты.

Рис. 23. Результаты вычислений степенной модели
EMBED Excel.Chart.8 \s
Рис. 24. Степенная функция
Итак, b = 0,8577А = 0,6684 (рис. 23, ячейки В15 В 16 соответственно). В результате уравнение регрессии имеет вид: Y=0,6684-0,8577·Х. перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения: EMBED Equation.3 .
Получим уравнение степенной модели регрессии: EMBED Equation.3 .
в) Уравнение показательной кривой имеет вид: EMBED Equation.3 . Для построения этой модели необходимо произвести линеаризацию переменных. Для этого осуществим логарифмирование обеих частей уравнения: EMBED Equation.3 .
Пусть Y= EMBED Equation.3 , В= EMBED Equation.3 , А= EMBED Equation.3 , тогда уравнение регрессии примет вид: Y=A+Bx.
Построим дополнительную таблицу и произведем расчеты.

Рис. 24. Результаты вычислений параметров показательной функции
EMBED Excel.Chart.8 \s
Рис. 25 Показательная функция
Итак, В=0,0097 и А=1,64 (рис. 24, ячейки В16 и В17 соответственно). Уравнение регрессии имеет вид: Y=1,64 + 0,0097·х. перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения: EMBED Equation.3 .
Задача 9.
Найдем коэффициенты детерминации для данных моделей по формуле:
EMBED Equation.3 .
Но при этом вычислим индекс корреляции для каждой модели:
EMBED Equation.3 .
А также нужно найти коэффициенты эластичности для каждого типа уравнения регрессии. И для определения качества каждой модели найдем средние относительные ошибки аппроксимации, которые определяются по формуле:
EMBED Equation.3 .
а) Для гиперболической функции.
Проведем дополнительные расчеты.

Рис. 26. Результаты вычислений
Итак, индекс корреляции равен 0,9574 (рис. 26, ячейка В20). Связь между показателем у и фактором х высокая.
Индекс детерминации равен 0,9167 (рис. 26, ячейка В21). Вариация результата Y (объема выпуска продукции) на 91,67% объясняется вариацией фактора Х (объемом капиталовложений).
Коэффициент эластичности для гиперболической функции определяется по формуле: EMBED Equation.3 . В нашем случае он равен 0,6897 (рис. 26, ячейка 23). Это значит, что если фактор измениться на 1%, то в среднем на 0,68% измениться результат.
Относительная ошибка аппроксимации гиперболической функции равна 6,3765% (рис. 26, ячейка B24), что говорит о некачественной модели.
б) Для степенной функции.
Проведем дополнительные расчеты.

Рис. 27. Результаты вычислений
Итак, индекс корреляции равен 0,8192 (рис. 27, ячейка В19). Связь между показателем у и фактором х весьма высокая.
Индекс детерминации равен 0,6711 (рис. 27, ячейка В20). Вариация результата Y (объема выпуска продукции) на 67,11% объясняется вариацией фактора Х (объемом капиталовложений).
Коэффициент эластичности для степенной функции находиться по формуле: Э=b, следовательно, коэффициент эластичности степенной функции равен 0,85 (ячейка В15). Это значит, что если фактор измениться на 1%, то в среднем на 0,85% измениться результат.
Относительная ошибка аппроксимации степенной функции равна 4,1944% (рис. 27, ячейка B21), что говорит о качественной модели.
в) Для показательной функции.
Проведем дополнительные расчеты.

Рис. 28.Результаты вычислений
Итак, индекс корреляции равен 0,8192 (рис. 28, ячейка В21). Связь между показателем у и фактором х весьма высокая.
Индекс детерминации равен 0,6711 (рис. 28, ячейка В22). Вариация результата Y (объема выпуска продукции) на 67,11% объясняется вариацией фактора Х (объемом капиталовложений).
Коэффициент эластичности для показательной функции определяется по формуле: EMBED Equation.3 В нашем случае он равен 1,0518(рис. 28, ячейка B24). Это значит, что если фактор измениться на 1%, то в среднем на 1,05% измениться результат.
Относительная ошибка аппроксимации показательной функции равна 4,2350% (рис. 28, ячейка B25), что говорит о качественной модели.
Сравним модели по этим характеристикам.


Вывод: Самое хорошее качество имеет степенная модель. Коэффициент детерминации R² наиболее близок к 1 у степенной модели. (вариация объема капиталовложений на 96,7117% объясняет вариацию выпуска продукции) и наименьшая средняя относительная ошибка аппроксимации EMBED Equation.3 = 3,955%.. Степенная модель из трех представленных моделей лучше всего описывает исходные данные.