EMBED MSPhotoEd.3
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ

О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №2
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант №7

Выполнил: .
Проверила: Голикова Анна Викторовна
ФИО




Москва, 2008 г.
Постановка задачи
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования и частично использует результаты Лабораторной работы № 1.
В Лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.
Таблица 1.

В процессе статистического исследования необходимо решить ряд задач.
Установить наличие статистической связи между факторным признаком Х и результативным признаком Y:а) графическим методом;
б) методом сопоставления параллельных рядов.
Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
Оценить тесноту связи признаков Х и Y на основе:а) эмпирического корреляционного отношения ?;б) линейного коэффициента корреляции r.
Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа.
Оценить адекватность и практическую пригодность построенной линейной регрессионной модели, указав:
а) значимость и доверительные интервалы коэффициентов а0, а1;
б) индекс детерминации R2 и его значимость;
в) точность регрессионной модели.
Дать экономическую интерпретацию:
а) коэффициента регрессии а1;
б) коэффициента эластичности КЭ;
в) остаточных величин EMBED Equation.3 i.
Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм. Построить для этого уравнения теоретическую кривую регрессии.
II. Выводы по результатам выполнения лабораторной работы.
Задача 1. Установление наличия статистической связи между факторным признаком Х и результативным признаком Y графическим методом и методом сопоставления параллельных рядов.
Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака закономерным образом изменяется какой –либо из обобщающих статистических показателей распределения результативного признака.
Вывод:
Точечный график связи признаков (диаграмма рассеяния, полученная в Лабораторной работы №1 после удаления аномальных значений), а также табл.1, представляющая два параллельных ряда значений признаков X и Y с ранжированными значениями xi показывают, что с увеличением значений факторного признака увеличиваются (уменьшаются) значения результативного признака, за исключением некоторых отклонений от общей тенденции предприятия:
Это позволяет сделать вывод, что имеет место статистическая связь. Предположительный вид связи – линейная прямая.
Задача 2. Установление наличия корреляционной связи между признаками Х и Y методом аналитической группировки.
Корреляционная связь – важнейший частный случай статистической связи, когда под воздействием вариации факторного признака Х закономерно изменяются средние значения EMBED Equation.3 результативного признака. Для выявления наличия корреляционной связи используется метод аналитической группировки.
Вывод:
Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 2.2, которая показывает, что с увеличением факторного признака Х закономерно изменяются средние значения EMBED Equation.3
Задача 3.Оценка тесноты связи признаков Х и Y:
а) на основе эмпирического корреляционного отношения.
Для анализа тесноты связи между факторным и результативным признаками рассчитывается показатель ? - эмпирическое корреляционное отношение, задаваемое формулой
EMBED Equation.3 ,
где EMBED Equation.3 и EMBED Equation.3 - соответственно межгрупповая и общая дисперсии результативного признака Y - Выпуск продукции.
Результаты выполненных расчетов представляются табл. 2.4.
Вывод:
Значение коэффициента ?= EMBED Equation.3 , что в соответствии с оценочной шкалой Чэддока говорит о прямолинейной степени связи изучаемых признаков.
б) на основе линейного коэффициента корреляции признаков.
В предположении, что связь между факторным и результативным признаками прямолинейная, для оценки тесноты связи на основе линейного коэффициента корреляции r был использован инструмент Корреляция надстройки Пакет анализа, в результате применения которого построена табл.2.5.
Вывод:
Значение коэффициента корреляции r= 0.9132, что в соответствии со шкалой Чэддока говорит о прямолинейной степени связи изучаемых признаков.
Так как значение коэффициента корреляции r положительное, то связь между признаками прямолинейная.
Посредством показателя ? измеряется теснота связи любой формы, а с помощью коэффициента корреляции r – только прямолинейная, следовательно, значения ? и r совпадают только при наличии прямолинейной связи. В теории статистики установлено, что если EMBED Equation.3 , то гипотезу о прямолинейности связи можно считать подтвержденной.
Вывод:
При ?= 0,9936 и r= 0,9132 величина EMBED Equation.3 = 0,1533, следовательно, связь между признаками X и Y предположительно прямолинейная.
Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа.
Построение регрессионной модели заключается в определении аналитического выражения связи между факторным признаком X и результативным признаком Y.
Инструмент Регрессия производит расчет параметров а0 и а1 уравнения однофакторной линейной регрессии EMBED Equation.3 , а также вычисление ряда показателей для проверки адекватности построенного уравнения фактическим данным.
В результате работы инструмента Регрессия были получены четыре результативные таблицы 2.6 – 2.9 Рабочего файла.
Таблица 2.6
Таблица 2.7
Таблица 2.8
Таблица 2.9

Вывод:
Рассчитанные в табл.2.8
коэффициенты а0 и а1 позволяют построить линейную регрессионную модель связи изучаемых признаков в виде уравнения EMBED Equation.3 7-06x3 - 0,016x2 + 14,68x - 3535
Задача 5. Оценка адекватности и практической пригодности построенной линейной регрессионной модели.
Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.
Оценка соответствия регрессионной модели наблюдаемым фактическим значениям признаков X и Y выполняется в 4 этапа:
оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов для заданного уровня надежности;
определение практической пригодности построенной модели на основе оценок коэффициента корреляции r и индекса детерминации R2;
проверка адекватности уравнения регрессии в целом по F-критерию Фишера;
оценка погрешности регрессионной модели.
Оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов.
Так как коэффициенты уравнения а0, а1 рассчитывались, исходя из значений признаков только 30-ти пар (xi,yi), то полученные значения коэффициентов являются лишь приближенными оценками фактических параметров связи а0, а1. Поэтому необходимо: 1) вычислить средние ошибки EMBED Equation.3 , EMBED Equation.3 найденных коэффициентов а0, а1, 2) проверить значения коэффициентов на неслучайность (т.е.узнать, насколько они типичны для всей генеральной совокупности предприятий отрасли), 3) (с заданной доверительной вероятностью) пределы, в которых могут находиться значения а0, а1 для генеральной совокупности предприятий.
Для анализа коэффициентов используется таблица 2.8 в которой:
значения коэффициентов а0, а1;
рассчитанный уровень значимости коэффициентов уравнения (термин"Р-значения");
доверительные интервалы коэффициентов с уровнем надежности Р=0,95 и Р=0,683.
1.1. Определение значимости коэффициентов уравнения.
Уровень значимости – это величина ?=1-Р, где Р заданный уровень надежности (доверительная вероятность).
Если Р-значение коэффициента в результативной таблице меньше заданного уровня значимости ?=1-0,95=0,05, то этот коэффициент признается неслучайным (типичным для генеральной совокупности).
Вывод:
Для свободного члена уравнения а0 уровень значимости есть 0.08 Так как этот уровень больше заданного уровня значимости ?=0,05, то коэффициент а0= -248.94 признается случайным.
Для коэффициента регрессии а1 уровень значимости есть 1.98 Так как этот уровень больше заданного уровня значимости ?=0,05, то коэффициент а1= 1.94 признается случайным.
1.2. Оценка доверительных интервалов коэффициентов уравнения регрессии.
Доверительные интервалы коэффициентов уравнения регрессии а0, а1 при уровнях надежности Р=0,95 и Р=0,683 приведены в следующей таблице:
Вывод:
Увеличение уровня надежности ведет к расширению доверительных интервалов коэффициентов уравнения, в которых могут находиться коэффициенты а0, а1 уравнения связи признаков для генеральной совокупности предприятий.
Определение практической пригодности построенной регрессионной модели.
В случае линейности функции связи для оценки тесноты связи признаков X и Y, устанавливаемой по модели, используется линейный коэффициент корреляции r. По величине r можно охарактеризовать практическую пригодность модели:
близость EMBED Equation.3 к единице свидетельствует о хорошей аппроксимации фактических данных полученной линейной функции связи EMBED Equation.3 = a0 + a1x;
близость EMBED Equation.3 к нулю, означает, что уравнение регрессии не может быть линейным и для моделирования связи следует использовать нелинейные зависимости.
Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2, показывающего, какая часть общей вариации значений признака Y объясняется в модели вариацией фактора X:
неравенству R2 > 0,5 отвечают значения EMBED Equation.3 >0,7, что означает высокую степень тесноты связи признаков X и Y, устанавливаемую по уравнению регрессии. При этом в модели более 50% вариации значений признака Y объясняется влиянием фактора Х, что позволяет считать применение синтезированного уравнения регрессии EMBED Equation.3 правомерным;
при EMBED Equation.3 EMBED Equation.3 0,7 величина R2 всегда будет меньше 50%. Это означает, что согласно модели вариация фактора Х влияет на вариацию Y в значительно меньшей степени, чем другие (неучтенные в модели) факторы. При таких условиях построенная математическая модель связи практического значения не имеет.
Вывод:
Согласно таблице "Регрессионная статистика" r=0.9131, R2=0.8339. Поскольку EMBED Equation.3 >0,7 и R2>0,5, то построенная линейная регрессионная модель связи пригодна для практического использования.
Общая оценка адекватности регрессионной модели по F-критерию Фишера.
Адекватность построенной регрессионной модели фактическим данным (xi,yi) устанавливается по критерию Р.Фишера, оценивающему статистическую значимость (неслучайность) индекса детерминации R2.
Рассчитанная для уравнения оценка значимости R2 = 1,98. Если она меньше заданного уровня значимости ?=0,05, то величина R2 признается неслучайной и, следовательно, уравнение регрессии не может быть использовано как модель связи между признаками Х и Y для генеральной совокупности предприятий отрасли.
Вывод:
Уровень значимости индекса детерминации R2 =1,98. Так как этот уровень больше заданного уровня значимости ?=0,05, то значение R2 признается случайным и построенная модель связи между признаками Х и Y применима для генеральной совокупности предприятий отрасли в целом.
Оценка погрешности регрессионной модели.
Погрешность регрессионной модели можно оценить по средней квадратической ошибке EMBED Equation.3 построенного уравнения регрессии, представляющей собой среднее квадратическое отклонение эмпирических значений yi признака Y от его теоретических значений EMBED Equation.3 .
В адекватных моделях ошибка EMBED Equation.3 не должна превышать 12%-15%.
Вывод:
Погрешность линейной регрессионной модели составляет 227,17 %, что не подтверждает адекватность модели.
Задача 6. Дать экономическую интерпретацию:
1) коэффициента регрессии а1;
2) коэффициента эластичности КЭ;
3) остаточных величин EMBED Equation.3 i.
1. Экономическая интерпретация коэффициента регрессии а1.
В случае линейного уравнения регрессии EMBED Equation.3 =a0+a1x величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значения результативного признака Y при изменении фактора Х на единицу его измерения. Знак при a1 показывает направление этого изменения.
Вывод:
Коэффициент регрессии а1=1,98 показывает, что на сколько в среднем (в абсолютном выражении) изменяется значения результативного признака Y при изменении фактора Х на единицу его измерения
2. Экономическая интерпретация коэффициента эластичности.
С целью расширения возможностей экономического анализа используется коэффициент эластичности EMBED Equation.3 , который показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
Среднее значение признаков X и Y даны в таблице описательных статистик
Вывод:
Коэффициент эластичности КЭ =1,98*830/1358= 1,2097% показывает, что на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
3. Экономическая интерпретация остаточных величин EMBED Equation.3 i.
Каждый их остатков EMBED Equation.3 характеризует отклонение фактического значения yi от значения EMBED Equation.3 , рассчитанного по регрессионной модели и определяющего, какое среднее значение EMBED Equation.3 следует ожидать для факторного признака xi.
Анализируя остатки, можно сделать ряд практических выводов, касающихся выпуска продукции на рассматриваемых предприятиях отрасли.
Значения остатков EMBED Equation.3 i имеют как положительные, так и отрицательные отклонения от ожидаемого в среднем объема выпуска продукции EMBED Equation.3 (которые в итоге уравновешиваются, т.е. EMBED Equation.3 ).
Экономический интерес представляют наибольшие отклонения от среднего объема EMBED Equation.3 как в положительную, так и в отрицательную сторону.
Вывод:
Согласно таблице остатков, в построенной линейной регрессионной модели наибольшее превышение среднего объема выпускаемой продукции EMBED Equation.3 имеют три предприятия - с номерами
а наибольшие отрицательные отклонения от среднего объема выпуска - три предприятия с номерами
Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемого продукта от ожидаемого среднего объема и выявления резервов роста производства.
Задача 7. Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм. Построение для этого уравнения теоретической кривой регрессии.
Уравнения регрессии и их графики построены для 4-х видов нелинейной зависимости между признаками и представлены на диаграмме 2.1.
Уравнения регрессии и соответствующие им индексы детерминации R2 приведены в следующей таблице:
Регрессионные модели связи
Выбор наиболее адекватного уравнения регрессии определяется максимальным значением индекса детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным.
Вывод:
Максимальное значение индекса детерминации R2 =0,8381, следовательно, наиболее адекватное нелинейное уравнения регрессии – y = 7.06x3 - 0.0162x2 + 14.681x - 3535.4.
ПРИЛОЖЕНИЕ 2