Министерство образования и науки РФ
Федеральное агентство по образованию
Государственное образовательное учреждение
Высшего профессионального образования
Всероссийский заочный финансово-экономический институт
Филиал в г. Туле
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №2
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант № 24
Выполнил: студент третьего курса
Факультета УС
Специальность БУА и А
Вечерняя группа №311
Проверил: Шелобаева И.С.
Тула, 2007 г.
1. Постановка задачи
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования двух экономических показателей статистической совокупности 32 предприятий и частично использует результаты Лабораторной работы № 1.
В Лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.
Исходные данные Таблица 1
В процессе статистического исследования необходимо решить ряд задач.
1. Установить наличие статистической связи между факторным признаком Х и результативным признаком Y:
а) графическим методом;
б) методом сопоставления параллельных рядов.
2. Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
3. Оценить тесноту связи признаков Х и Y на основе:
а) эмпирического корреляционного отношения EMBED Equation.3 ;
б) линейного коэффициента корреляции r.
4. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа.
5. Оценить адекватность и практическую пригодность построенной линейной регрессионной модели, указав:
а) доверительные интервалы коэффициентов а0, a1 ;
б) степень тесноты связи признаков Х и Y;
в) погрешность регрессионной модели.
6. Дать экономическую интерпретацию:
а) коэффициента регрессии a1;
б) коэффициента эластичности КЭ;
в) остаточных величин ? i.
7. Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм. Построить для этого уравнения теоретическую кривую регрессии.
2. Расположение рабочего файла с результативными таблицами и графиками
Рис. 1
3.Выводы по результатам выполнения лабораторной работы.
Задача 1. Установление наличия статистической связи между факторным признаком X и результативным признаком Y графическим методом и методом сопоставления параллельных рядов.
Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака закономерным образом изменяется какой-либо из обобщающих статистических показателей распределения результативного признака.
По точечному графику связи признаков - диаграмме рассеяния, полученной в Лабораторной работы №1 после удаления аномальных значений, можно судить о тесной связи между признаками, т.к. точки на графике близко расположены и группируются вокруг определенной линии – линии регрессии (рис. 3). Этот точечный график связи признаков и табл.2.1, представляющая два параллельных ряда значений признаков X и Y с ранжированными значениями Xj показывают, что с увеличением значений факторного признака X увеличиваются значения результативного признака Y. Это позволяет сделать вывод, что имеет место статистическая связь.
На основе точечного графика и таблицы 2.1 можно сказать, что связь между X и Y линейная прямая.
Задача 2. Установление наличия корреляционной связи между признаками X и Y методом аналитической группировки.
Корреляционная связь — важнейший частный случай статистической связи, когда под воздействием вариации факторного признака X закономерно изменяются средние значения EMBED Equation.3 результативного признака. Для выявления наличия корреляционной связи используется метод аналитической группировки.
Вывод:
Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в таблице 2.2. Таблица показывает, что с увеличением факторного признака X увеличиваются средние значения EMBED Equation.3 результативного признака. Это свидетельствует о наличии корреляционной связи между признаками X и Y.
Задача 3.Произведем оценку тесноты связи признаков X и Y:
а) на основе эмпирического корреляционного отношения.
Расчет EMBED Equation.3 - эмпирического корреляционного отношения, для анализа тесноты связи между факторным X и результативным Y признаками производят по формуле:
EMBED Equation.3
где EMBED Equation.3 и EMBED Equation.3 - соответственно межгрупповая и общая дисперсии результативного признака.
Результат расчета EMBED Equation.3 представлен в таблице 2.4.
Вывод:
Значение коэффициента EMBED Equation.3 = 0,903. Это в соответствии с оценочной шкалой Чэддока говорит о весьма высокой степени связи изучаемых признаков (0,9? EMBED Equation.3 = 0,903?0,99).
б) на основе линейного коэффициента корреляции признаков:
В предположении, что связь между факторным X и результативным Y признаками прямолинейная, произведем оценку тесноты связи на основе линейного коэффициента корреляции r. Результат расчета r представлен в таблице 2.5.
Вывод:
Значение коэффициента корреляции r = 0,913. Это в соответствии с оценочной шкалой Чэддока говорит о весьма высокой степени связи изучаемых признаков (0,9? r = 0,913?0,99).
Так как значение коэффициента корреляции г положительное, то можно сказать, что связь между признаками прямая.
Если | EMBED Equation.3 |?0,1, то зависимость признака Y от фактора X можно считать прямолинейной.
Вывод:
При EMBED Equation.3 = 0,903, r = 0,913, | EMBED Equation.3 |? |0,815 – 0,834| = 0,019 , следовательно, зависимость признака Y от фактора X можно считать прямолинейной.
Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа.
Построение регрессионной модели заключается в определении аналитического выражения связи между факторным признаком X и результативным признаком Y.
Инструмент Регрессия производит расчет параметров а0 и a1 уравнения однофакторной линейной регрессии EMBED Equation.3 = а0+а1х, а также вычисление показателей для проверки адекватности построенного уравнения фактическим данным.
В результате работы инструмента Регрессия надстройки Пакет анализа были получены четыре результативные таблицы 2.6 - 2.9.
Вывод:
Рассчитанные в табл.2.8 (ячейки В91 и В92) коэффициенты а0 и a1 позволяют построить однофакторную линейную регрессионную модель связи изучаемых признаков в виде уравнения EMBED Equation.3 = -276,0995 + 1,0894х
Задача 5. Оценка адекватности и практической пригодности построенной линейной регрессионной модели.
Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.
а) Укажем доверительные интервалы коэффициентов уравнения регрессии а0, a1 :
Доверительные интервалы коэффициентов уравнения регрессии а0, a1 при уровнях надежности Р=0,95 и Р=0,683, рассчитанные при помощи инструмента Регрессия надстройки Пакет анализа (см. табл. 2.8), приведены в следующей таблице:
Таблица 2.10
Вывод: Из таблицы видно, что увеличение уровня надежности ведет к расширению доверительных интервалов коэффициентов уравнения.
б) Оценка степени тесноты связи признаков X и Y осуществляется на основе следующих показателей:
R2 - индекс детерминации ( EMBED Equation.3 ), показывающий какая часть общей вариации расчетных (теоретических) значений признака Y объясняется вариацией фактора X;
R - индекс корреляции ( EMBED Equation.3 ), оценивающий степень тесноты связи между факторными значениями хi и расчетными результативными значениями EMBED Equation.3 ;
r – линейный коэффициент корреляции, используемый для измерения тесноты связи признаков в регрессионной модели в случае линейной функции связи f(x).
В результате работы инструмента Регрессия надстройки Пакет анализа рассчитаны эти показатели (см. табл. 2.6): R2 = 0,834; R = 0,913; r = 0,913.
Т.к. эти значения удовлетворяют неравенству R2 > 0,5 и отсюда R > 0,7 (или | r | > 0,7), это означает высокую степень тесноты связи признаков в уравнении регрессии. При этом более 50% вариации расчетных значений признака Y объясняется влиянием фактора X, что позволяет считать применение синтезированного уравнения регрессии правомерным.
в) Оценку погрешности регрессионной модели можно произвести по величине средней квадратической ошибки EMBED Equation.3 построенного уравнения регрессии.
В адекватных моделях ошибка EMBED Equation.3 не должна превышать 12%-15%.
Значение EMBED Equation.3 приводится в четвертой строке таблицы 2.6 «Регрессионная Статистика», значение EMBED Equation.3 - в таблице описательных статистик (Лабораторная работа №1, табл.3).
Вывод:
Погрешность линейной регрессионной модели составляет 9,17 % (155,572/1695,633*100). Это значение не превышает 12%-15%, что подтверждает адекватность модели.
Практическая пригодность построенной линейной регрессионной модели оценивается по величине показателей r, R2 или R.
Показатель R близок к единице (R = 0,913), это означает, что связь между признаками достаточно хорошо описывается избранным уравнением корреляционной зависимости EMBED Equation.3 = а0+а1х.
Показатель |r| так же близок к единице (r = 0,913), это свидетельствует о хорошей аппроксимации фактических данных полученной линейной функцией связи EMBED Equation.3 = а0+а1х.
Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2:
Показатель R2 = 0,834 > 0,5 , и отсюда R > 0,7 (или | r | > 0,7), это означает высокую степень тесноты связи признаков в уравнении регрессии. При этом более 50% вариации расчетных значений признака Y объясняется влиянием фактора X, что позволяет считать применение синтезированного уравнения регрессии правомерным.
Все эти показатели свидетельствуют о пригодности построенной линейной регрессионной модели для практического использования.
Задача 6.
а) Экономическая интерпретация коэффициента регрессии a1.
В случае линейного уравнения регрессии EMBED Equation.3 = а0+а1х величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значения результативного признака Y при изменении фактора X на единицу его измерения. Знак при a1 показывает направление этого изменения.
Вывод:
Коэффициент регрессии a1 = 1,089 показывает, что при увеличении стоимости основных фондов на 1 млн. руб., выпуск продукции увеличится в среднем на 1,089 млн. руб.
б) Экономическая интерпретация коэффициента эластичности КЭ.
С целью расширения возможностей экономического анализа используется коэффициент эластичности КЭ = a1 EMBED Equation.3 , который показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
Средние значения признаков X и Y даны в таблице описательных статистик (Лабораторная работа №1, табл.3)
Вывод:
Коэффициента эластичности КЭ = 1,162 (1,089 * 1810/1695,633), показывает, что при увеличении среднегодовой стоимости основных фондов на 1% выпуск продукции возрастет в среднем на 1,16%.
в) Экономическая интерпретация остаточных величин ? i .
Каждый их остатков ? i = EMBED Equation.3 характеризует отклонение i-тых наблюдений от значений EMBED Equation.3 , рассчитанных по регрессионной модели, которые следует ожидать в среднем.
Значения остатков ? i представлены в таблице 2.9.
Экономический интерес представляют наибольшие и наименьшие отклонения от среднего объема EMBED Equation.3 как в положительную, так и в отрицательную сторону.
Вывод:
Согласно таблице остатков, в построенной линейной регрессионной модели наибольшее превышение среднего объема выпускаемой продукции EMBED Equation.3 имеют три предприятия - с номерами 20, 27, 6; а наибольшие отрицательные отклонения от среднего объема выпуска - три предприятия с номерами 24, 8, 26 (см. табл. 2.9). Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемого продукта от ожидаемого среднего объема.
Задача 7.
Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм. Построение для этого уравнения теоретической кривой регрессии.
Уравнения регрессии и их графики построены для 4-х видов нелинейной зависимости между признаками и представлены на рис. 2.
Рис. 2
Уравнения регрессии и соответствующие им индексы детерминации R2 приведены в следующей таблице:
Регрессионные модели связи Таблица 2.11
Выбор наиболее адекватного уравнения регрессии определяется максимальным значением индекса детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным.
Вывод:
Максимальное значение индекса детерминации R2 = 0,8381, следовательно наиболее адекватное нелинейное уравнение регрессии полином 3-его порядка ( EMBED Equation.3 = 5E-07x3 - 0,0024 x2 + 5,0218x - 2400,4).
Это уравнение и его график приведены на рис.3