По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции ( EMBED Equation.3 , млн. руб.) от объема капиталовложений ( EMBED Equation.3 , млн. руб.)
Требуется:
Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.
Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков EMBED Equation.DSMT4 ; построить график остатков.
Проверить выполнение предпосылок МНК.
Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента EMBED Equation.3
Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью EMBED Equation.3 - критерия Фишера EMBED Equation.3 , найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.
Осуществить прогнозирование среднего значения показателя EMBED Equation.3 при уровне значимости EMBED Equation.3 , если прогнозное значения фактора Х составит 80% от его максимального значения.
Представить графически: фактические и модельные значения EMBED Equation.3 точки прогноза.
Составить уравнения нелинейной регрессии:
гиперболической;
степенной;
показательной.
Привести графики построенных уравнений регрессии.
Для указанных моделей найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.
Решение
Рассмотрим зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (X, млн. руб.) на 10 предприятиях легкой промышленности (n=10).
Рассчитаем выборочный коэффициент корреляции по формуле (использована функция КОРРЕЛ Мастера функций Excel):
EMBED Equation.3
Коэффициент корреляции положительный, это свидетельствует о наличии прямой статистической связи, то есть с увеличением x – y в сущности увеличивается.
Оценим значимость полученного коэффициента с помощью t-критерия Стьюдента.
Расчетное значение t-критерия определяем по формуле:
EMBED Equation.3
Табличное значение t-критерия определяется при заданном уровне значимости ? и числе степеней свободы n-2. tтабл.(?, n-2)
Используем стандартную функцию СТЬЮДРАСПОБР (0,05;8) Мастера функций Excel:
tтабл. = 2,306
tрасч.=6,916 > tтабл.=2,306
Значит, коэффициент корреляции значим.
1. Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.
Для оценки параметров линейного уравнения парной регрессии EMBED Equation.3 используем метод наименьших квадратов (МНК).
Для расчетов используется программа «Регрессия» надстройки «Анализ данных» пакета Excel.
Таким образом, получим уравнение регрессии вида EMBED Equation.3 .
Параметр b является коэффициентом регрессии. Он равен 0,761, то есть, с увеличением объема капиталовложений на 1 млн. руб. объем выпускаемой продукции по предприятиям легкой промышленности увеличится в среднем на 761 тыс. руб., что свидетельствует об эффективности работы предприятий.
2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков EMBED Equation.3 ; построить график остатков.
Проверка адекватности построенной модели регрессии проводится на основе анализа остатков - ei.
Остатки рассчитываются по формуле:
EMBED Equation.3
Расчет остатков произведен с помощью прикладной программы Excel в таблице «Вывод остатка».
Остаточная сумма квадратов рассчитывается по формуле (использована функция СУММКВ Мастера функций Excel):
EMBED Equation.3
Дисперсия остатков рассчитывается по формуле (использована функция ДИСП Мастера функций Excel):
EMBED Equation.3
3. Проверить выполнение предпосылок МНК
Проверить выполнение предпосылок МНК, т.е. оценить адекватность построенной модели, можно на основе исследования свойств остатков.
1. Нулевое или близкое к нулю среднее значение остатков.
Это свойство означает, что ?(yi - yi) = 0 или может быть величиной близкой к нулю. В данной задаче просуммированные остатки равны нулю, то есть первое свойство выполняется.
2. Случайный характер остатков.
Проверить это свойство можно на основе критерия поворотных точек. В соответствии с этим критерием в случайном ряду остатков должно выполняться строгое неравенство:
EMBED Equation.3
EMBED Equation.3
Поскольку P=6 больше 2, то свойство случайности остатков выполняется.
3. Независимость остатков (отсутствие автокорреляции).
Проверку этого свойства можно провести с помощью коэффициента автокорреляции, который рассчитывается по формуле (использована функция КОРРЕЛ Мастера функций Excel):
EMBED Equation.3
Проверим полученный коэффициент автокорреляции на значимость с помощью t-критерия Стьюдента.
EMBED Equation.3
tрасч.=1,147 < tтабл.=2,306, значит коэффициент корреляции не значим, т.е. остатки неавтокоррелированны. Это означает, что свойство независимости остатков выполняется.
4. Соответствие ряда остатков нормальному закону распределения.
Данное свойство проверяется с помощью R/S критерия.
С помощью функции СТАНДОТКЛОН Мастера функций Excel по таблице остатков найдем среднее квадратическое отклонение.
S? = 2,054
Расчетное значение этого R/S критерия определяется по формуле:
EMBED Equation.3
Для данной задачи n=10 и ?=0,05, значит границы интервала равны 2,67 и 3,57. Расчетное значение R/S – критерия попадает в интервал 2,67<2,647< 3,57, следовательно, свойство нормальности остатков выполняется.
5. Гомоскедастичность (постоянство) дисперсии остатков.
Для обнаружения гетероскедастичности (то есть нарушение гомоскедастичности), используем тест Гольдфельда-Квандта:
а) Упорядочим выборку из n-наблюдений по мере возрастания факторного признака x.
б) Совокупность наблюдений разделим на 2 группы, соответственно с малыми и большими значениями факторного признака х.
Определим по каждой из групп уравнения регрессии:
- для первой группы с помощью программы Регрессия надстройки Анализ данных пакета Excel получим уравнение регрессии: EMBED Equation.3
- для второй группы, так же, с помощью программы Регрессия пакета Анализ данных в среде Excel получим уравнение регрессии: EMBED Equation.3
в) Вычислим остаточную сумму квадратов:
- для первой регрессии, она определяется по формуле (использована функция СУММКВ Мастера функций Excel):
EMBED Equation.3
- для второй регрессии, она определяется по формуле (использована функция СУММКВ Мастера функций Excel):
EMBED Equation.3
Далее используем F-критерий Фишера. Расчетное значение этого Критерия определяется по формуле:
EMBED Equation.3
Табличное значение F-критерия Фишера находим при помощи функции FРАСПОБР Мастера функций Excel.
EMBED Equation.3
Поскольку Fрасч=1,653<Fтабл=5,391, то свойство гетероскедастичности не имеет места, т.е. остатки обладают свойством гомоскедастичности.
Таким образом, выполняются все условия проверки (предпосылки МНК), это значит, что построенная регрессионная модель является адекватной реальному процессу, а, следовательно, её можно использовать для построения прогнозных оценок.
4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента EMBED Equation.3
Для оценки статистической значимости, существенности параметров модели парной регрессии EMBED Equation.3 , используется t-критерий Стьюдента. Расчетные значения t-статистики получаются путем сопоставления значения параметров a и b с величинами случайных ошибок этих параметров Sa и Sb:
EMBED Equation.3
Случайные ошибки определяются по формулам:
EMBED Equation.3
Воспользуемся результатами, полученными программой Регрессия надстройки Анализ данных пакета Excel.
Далее, полученные расчетные значения: EMBED Equation.3 = 7,285 ; EMBED Equation.3 =6,916 сравниваем с табличным значением tтабл . Табличное значение t-критерия определяется при (n-2) – в нашем случае n-2=10-2=8 степеней свободы и соответственно уровнем значимости ?=0,05; рассчитаем tтабл = 2,306.
Таким образом, значение EMBED Equation.3 > tтабл, следовательно, параметр а значим, и EMBED Equation.3 > tтабл - параметр b также значим.
5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью EMBED Equation.3 - критерия Фишера EMBED Equation.3 , найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.
Коэффициент детерминации рассчитывается по формуле:
EMBED Equation.3
Используя программу Регрессия надстройки Анализ данных пакета Excel, получим R-квадрат=0,857.
Таким образом, все изменения объема выпуска продукции в среднем обусловлены на 85,7% изменениями объема капиталовложений и на 14,3% - изменениями факторов, неучтенных в модели.
Для проверки значимости модели регрессии используют F-критерий Фишера. С этой целью выполняется сравнение расчетного Fрасч значения и табличного значения Fтабл критерия Фишера.
Fрасч рассчитывают по формуле:
EMBED Equation.3
Fтабл=(?, m, n-m-1) рассчитывают с помощью функции FРАСПОБР Мастера функций Excel:
Fтабл =5,32.
Так как, Fрасч > Fтабл , то уравнение регрессии в целом значимо.
Оценку качества построенной модели (её точности) даёт также средняя относительная ошибка аппроксимации (средняя относительная ошибка модели), которая рассчитывается по формуле:
EMBED Equation.3
Произведем расчеты с помощью программы Excel. Чтобы найти EMBED Equation.3 воспользуемся функцией ABS Мастера функций Excel.
EMBED Equation.3 .
Это означает, что в среднем расчетные значения EMBED Equation.3 отличаются от фактических значений на 8,40%.
Так как EMBED Equation.3 =8,40% < 10%, то ошибка считается приемлемой, что говорит о хорошей точности модели.
6. Осуществить прогнозирование среднего значения показателя EMBED Equation.3 при уровне значимости EMBED Equation.3 , если прогнозное значения фактора Х составит 80% от его максимального значения.
Осуществим прогнозирование при EMBED Equation.3 . Прогнозное значение признака y получается при подстановке в уравнение регрессии соответствующего прогнозного значения факторного признака x:
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
Такой прогноз называется точечным. Значение факторного признака xпрог не должно значительно отличаться от входящих в исследуемую выборку (по которой определено уравнение регрессии). Точечный прогноз обычно сопровождают интервальным, поскольку трудно ожидать совпадения в будущем фактического значения y с EMBED Equation.3 прог. Интервальный прогноз задается с помощью доверительного интервала: EMBED Equation.3 , где U – величина отклонения от линии регрессии.
Доверительный интервал – это интервал, в котором с заданной вероятностью можно ожидать появление фактического значения прогнозируемого показателя.
Величина U оценивается по формуле:
EMBED Equation.3
Стандартная ошибка - Se =2,178; EMBED Equation.3 рассчитаем с помощью программы Excel - Мастера функций – СТЬЮДРАСПОБР (0,1;8); его значение составит EMBED Equation.3 =1,86.
Находим недостающие данные для расчета интервального прогноза.
EMBED Equation.3
В результате имеем точечный прогноз (25,176 ; 17,6)
Нижняя граница = 25,176-4,34=20,84
Верхняя граница =25,176+4,34=29,51
Таким образом, с вероятностью 80% объем выпуска продукции (Y, млн.руб.) при ожидаемых объемах капиталовложений (X, млн.руб.), будет находиться в пределах от 20,84 млн.руб. до 29,51 млн.руб.
7. Представить графически: фактические и модельные значения EMBED Equation.3 точки прогноза.
С помощью Мастер диаграмм пакета Excel графически отразим фактические и модельные значения Y, точки прогноза.
Для этого преобразуем сформированный программой Регрессия График подбора:
- Выберем тип диаграммы «точечная», на которой значения соединены отрезками;
- Далее на графике изобразим результаты прогнозирования. Для этого «кликнем» правой кнопкой мышки по точкам на графике, и в появившемся меню выберем Исходные данные. Затем на закладке «Ряд» нажмем кнопку «Добавить» и укажем диапазон размещения данных. Фактические значения Y отмечены на графике синим цветом, модельные – лиловым.
- Затем таким же образом добавляем прогнозные значения Y.
Фактические, модельные значения Y и прогноз
8. Составить уравнения нелинейной регрессии:
гиперболической;
степенной;
показательной.
Привести графики построенных уравнений регрессии.
а) Гиперболическая функция.
Уравнение гиперболической функции имеет вид:
EMBED Equation.3
Это уравнение приводится к линейному виду с помощью замены Z=1/x
В результате получается линейное уравнение EMBED Equation.3
Используя программу Регрессия надстройки Анализ данных пакета Excel, найдем параметры этого уравнения:
EMBED Equation.3
В полученное уравнение регрессии подставим имеющиеся значения х, таким образом найдем теоретические значения у. Затем по этим данным построим график гиперболической модели регрессии
б) Степенная функция.
Уравнение степенной модели имеет вид: EMBED Equation.3
Приведем это уравнение к линейному виду. Для этого произведем логарифмирование обеих частей уравнения (использована функция LOG10 Мастера функций пакета Excel):
EMBED Equation.3
Обозначим EMBED Equation.3 . Тогда уравнение примет вид Y=A+bX – линейное уравнение регрессии.
Используя программу Регрессия надстройки Анализ данных пакета Excel, найдем параметры линейного уравнения регрессии степенной функции:
EMBED Equation.3
Перейдем к исходным переменным х и у, выполнив потенцирование данного уравнения:
EMBED Equation.3
Использовав функцию СТЕПЕНЬ Мастера функций Excel, получим уравнение степенной модели регрессии:
EMBED Equation.3
Найдем теоретические значения y, подставив имеющиеся значения х в полученное уравнение регрессии. По этим данным построим график степенной модели регрессии.
в) Показательная функция.
Уравнение показательной кривой: EMBED Equation.3
Приведем это уравнение к линейному виду. Для этого также произведем логарифмирование обеих частей уравнения (использована функция LOG10 Мастера функций пакета Excel):
EMBED Equation.3 .
Введем обозначения EMBED Equation.3 .
С учетом этих обозначений получим линейное уравнение регрессии: Y=A+Bx.
Используя программу Регрессия надстройки Анализ данных пакета Excel, найдем параметры линейного уравнения регрессии показательной функции: EMBED Equation.3
EMBED Equation.3 .
Перейдем к исходным переменным x и y, выполнив потенцирование данного уравнения:
EMBED Equation.3
Использовав функцию СТЕПЕНЬ Мастера функций Excel, получим уравнение степенной модели регрессии:
EMBED Equation.3
Чтобы найти теоретические значения у, подставим в полученное уравнение имеющиеся значения х. Построим график показательной модели регрессии.
9. Для указанных моделей найти коэффициенты детерминации, коэффициенты эластичности и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.
а) Линейная модель
Коэффициент детерминации рассчитывается по формуле (также его можно найти с помощью программы Регрессия надстройки Анализ данных пакета Excel):
EMBED Equation.3
Это означает, что все изменения в объеме выпуска продукции обусловлены в среднем на 85,7% изменениями объема капиталовложений и на 14,3% - вариациями неучтенных в модели факторов.
Коэффициент эластичности для линейной функции рассчитывается по формуле:
EMBED Equation.3
Значит, если увеличить объем капиталовложений на 1%, то объем выпуска продукции увеличится в среднем на 462 тыс. руб.
Средняя относительная ошибка аппроксимации для линейной модели была найдена выше (см. пункт 5)
б) Гиперболическая функция
Коэффициент детерминации рассчитывается по формуле (также его можно найти с помощью программы Регрессия надстройки Анализ данных пакета Excel):
EMBED Equation.3
Это означает, что все изменения в объеме выпуска продукции обусловлены в среднем на 67,2% изменениями объема капиталовложений и на 32,8% - вариациями неучтенных в модели факторов.
Коэффициент эластичности для гиперболы рассчитывается по формуле:
EMBED Equation.3
Значит, если увеличить объем капиталовложений на 1%, то объем выпуска продукции увеличится в среднем на 163 тыс. руб.
Средняя относительная ошибка аппроксимации определяется по формуле:
EMBED Equation.3
Произведем расчеты с помощью программы Excel. Чтобы найти EMBED Equation.3 воспользуемся функцией ABS Мастера функций Excel. Тогда:
EMBED Equation.3
Это означает, что в среднем расчетные значения EMBED Equation.3 для гиперболической модели отличаются от фактических значений на 12,47%.
Так как EMBED Equation.3 =12,47%, то ошибка считается приемлемой, что говорит о хорошем уровне точности модели.
в) Степенная функция
Коэффициент детерминации рассчитывается по формуле (также его можно найти с помощью программы Регрессия надстройки Анализ данных пакета Excel):
EMBED Equation.3
Это означает, что все изменения в объеме выпуска продукции обусловлены в среднем на 87,5% изменениями объема капиталовложений и на 12,5% - вариациями неучтенных в модели факторов.
Коэффициент эластичности для степенной функции рассчитывается по формуле:
EMBED Equation.3
Значит, если увеличить объем капиталовложений на 1%, то объем выпуска продукции увеличится в среднем на 394 тыс. руб.
Средняя относительная ошибка аппроксимации определяется по формуле:
EMBED Equation.3
Произведем расчеты с помощью программы Excel. Чтобы найти EMBED Equation.3 воспользуемся функцией ABS Мастера функций Excel. Тогда:
EMBED Equation.3 .
Это означает, что в среднем расчетные значения EMBED Equation.3 для гиперболической модели отличаются от фактических значений на 7,65%.
Так как EMBED Equation.3 =7,65%, то ошибка считается приемлемой, что говорит о хорошем уровне точности модели.
г) Показательная функция
Коэффициент детерминации рассчитывается по формуле (также его можно найти с помощью программы Регрессия надстройки Анализ данных пакета Excel):
EMBED Equation.3
Это означает, что все изменения в объеме выпуска продукции обусловлены в среднем на 84,2% изменениями объема капиталовложений и на 15,8% - вариациями неучтенных в модели факторов.
Коэффициент эластичности для показательной функции рассчитывается по формуле:
EMBED Equation.3
Значит, если увеличить объем капиталовложений на 1%, то объем выпуска продукции увеличится в среднем на 215 тыс. руб.
Средняя относительная ошибка аппроксимации определяется по формуле:
EMBED Equation.3
Произведем расчеты с помощью программы Excel. Чтобы найти EMBED Equation.3 воспользуемся функцией ABS Мастера функций Excel. Тогда:
EMBED Equation.3 .
Это означает, что в среднем расчетные значения EMBED Equation.3 для гиперболической модели отличаются от фактических значений на 9,54%.
Так как EMBED Equation.3 =9,54%, то ошибка считается приемлемой, что говорит о хорошем уровне точности модели.
Для сравнения моделей построим сводную таблицу результатов.
Сравнивая эти четыре модели можно сделать вывод, что степенная наилучшим образом подходит для построения прогноза, т.к. она имеет наилучшие значения коэффициента детерминации и средней относительной ошибки аппроксимации (т.е. 2-х параметров из 3-х).