EMBED MSPhotoEd.3
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ

О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант № 47


Выполнил: ст. III курса гр. ФК, город

Ф.И.О.
Проверил: Берлин Юлия Ильинична
Ф.И.О.


Архангельск, 2006 г.
Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C35. Для демонстрационного примера (ДП) выборочные данные приведены в табл. 1-ДП.
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (EMBED Equation.3), моду (Мо), медиану (Ме), размах вариации (R), дисперсию ( EMBED Equation.3 ), средние отклонения – линейное (EMBED Equation.3) и квадратическое (?n), коэффициент вариации (V?), структурный коэффициент асимметрии К.Пирсона (Asп).
На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ).
Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности
Рассчитать генеральную дисперсию EMBED Equation.3 , генеральное среднее квадратическое отклонение EMBED Equation.3 и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.




Анализ выборочной совокупности
Задача 1. Любая исследуемая совокупность может содержать единицы наблюдения, значения признаков которых резко выделяются из основной массы значения. Такие нетипичные значения признаков (выбросы) могут быть обусловлены воздействием каких-либо сугубо случайных обстоятельств, возникать в результате ошибок наблюдения или же быть объективно присущими наблюдаемому явлению. В любом случае они являются аномальными для совокупности, так как нарушают статистическую закономерность изучаемого явления. Выявление аномальных значений признака наиболее удобно производить графическим методом, используя точечный график (диаграмму рассеяния). По расположению точек легко выявить значения признака, которые резко выделяются из общей, однородной массы значений признаков единиц совокупности.
Рисунок SEQ Рисунок \* ARABIC 1 Диаграмма рассеяния
Среди исходных данных выявили наличие двух аномальных единиц наблюдения см. таблицу 2. На рисунке 1 они резко выделяются. Первая аномальная точка с координатами (1460,00; 3675,00) означает, что выбранная аномальная точка соответствует предприятию 12, которое имеет среднегодовую стоимость основных производственных фондов, равную 1460,00 млн. руб., и выпуск продукции, равный 3675,00 млн. руб. (таблица 2) . Вторая точка с координатами (4645,00;1225,00) предприятия 31.
Таблица 2 -Аномальные единицы наблюдения
В последствии предприятие 12 и 31 исключаются, чтобы не привести к серьезным ошибкам в выводах о статистических свойствах совокупности.
Задача 2. Описательная статистика является инструментом статистического описания данных, представляющих всю наблюдаемую совокупность в целом. Среди обобщающих статистических показателей наиболее часто используются показатели центра распределения:
- EMBED Equation.3 , Мо и Ме.
Средняя является обобщающей характеристикой совокупности единиц по качественно однородному признаку. Средняя арифметическая простая равна сумме значений признака, деленной на их число:
EMBED Equation.3 (1)
EMBED Equation.3 - средняя для признака стоимости основных фондов;
EMBED Equation.3 - средняя для признака выпуска продукции (таблица 3).
Таблица 3 - Описательная статистики
Мода – наиболее часто встречающееся значение признака у единиц совокупности. Оно соответствует определенному значению признака. Таким образом, по признаку стоимости ОПФ наиболее часто встречается размер стоимости равный 3542,5 млн.руб., а в выпуске продукции – 3185 млн.руб.
Медиана – значение признака, которое делит единицы ранжированного ряда на 2 части. Она лежит в середине ранжированного ряда и делит его пополам со значениями признака больше медианы и со значением признака меньше медианы. Для того чтобы рассчитать медиану, нужно расположить индивидуальные значения признака в возрастающем порядке. Затем определяют порядковый номер медианы по формуле:
№Ме = EMBED Equation.3 (2)
В нашем случае №Ме = EMBED Equation.3 = 15,5. Это означает, что медиана расположена между 15 и 16 значениями признака в ранжированном ряду, так как ряд имеет четное число индивидуальных значений. Таким образом, Ме равна средней арифметической из соседних значений:
Ме1 = (3444,5+3469)/2= 3456,75 млн. руб. – медиана для признака стоимости ОПФ, т.е. 15 предприятий имеют показатель стоимости ОПФ меньше 3456,75 млн. руб., а все остальные 15 предприятий – больше 3456,75 млн. руб. Ме2= (3160,5+3185)/2= 3172,75 млн. руб. – медиана для признака выпуск продукции. Это говорит о том, что 15 предприятий выпускают продукции меньше 3172,75 млн. руб., а все остальные – больше 3172,75 млн. руб.
Для установления предельного значения амплитуды колебаний признака рассчитывают размах вариации:
R= x max – x min (3)
Значит размах вариации стоимости ОПФ составляет : 4645-2195=2450 млн.руб. Размах по выпуску продукции равен 4655-1715=2940 млн.руб., что на 490 млн.руб. больше чем размах стоимости ОПФ.
Среднее линейное отклонение, вычисляется как среднее арифметическое из абсолютных отклонений:
EMBED Equation.3 (4).
В данном примере средняя величина колеблемости стоимости ОПФ составляет 468,76667 млн.руб. , а для выпуска продукции 535,40667 млн.руб.
Таблица 5 - EMBED Equation.3 Выборочные показатели вариации и асимметрии
Дисперсия – это средняя арифметическая квадратов отклонений отдельных значений признака от их средней арифметической. Эта величина очень чутко реагирует на вариацию признака (за счет возведения отклонений в квадрат) и органически вписывается в аппарат математической статистики. На расчете дисперсии основаны многие статистические показатели.
Дисперсия рассчитывается по формуле:
EMBED Equation.3 (5)
Дисперсия признака стоимости ОПФ равная 339461,3833 означает средний квадрат отклонение цены основных производственных фондов от средней (3420), для выпуска продукция дисперсия составит 483068,5281 от средней (3195).
Среднее квадратическое отклонение показывает, на сколько в среднем отклоняется индивидуальные значения признака x i от их средней величины EMBED Equation.3 .
EMBED Equation.3 (6)
В нашем примере, среднее квадратическое отклонение признака стоимости ОПФ составляет: EMBED Equation.3 т.е. на 582,6331464 в среднем отклоняется стоимость ОПФ от средней величины, а отклонение выпуска продукции на 695,0313144 от средней величины.
Интенсивность вариации обычно измеряют коэффициентом вариации, который выражается в процентах и вычисляется по формуле:
EMBED Equation.3 (7)
Получается, что колебания вариантов по признаку стоимости ОПФ составляет (582,6331464/3420)* 100=17,03605691 % , а по выпуску продукции – 21,74952089 %.
Таблица 8–Описательные статистики выборочной совокупности.
Для оценки асимметричности распределения служит коэффициент Пирсона:
Asп = EMBED Equation.3 (8)
Так коэффициент асимметричности для стоимости ОПФ составляет:
3420-3542,5/582,6331= -0,21025237 . Для выпуска продукции коэффициент К.Пирсона равен 3195,6167-3185/695,0313= 0,015275091.
Рассчитанные выборочные показатели, представленные в двух таблицах 3 и 5, необходимо сформировать в единую таблицу значений выборочных показателей с заголовком «Описательные статистики выборочной совокупности».
Задача 3.
а) Степень колеблемости признака определяется по значению коэффициента вариации V?, исходя из оценочной шкалы:
0% < V? ? 40% - колеблемость незначительная;
40% < V? ? 60% - колеблемость средняя (умеренная);
V? > 60% - колеблемость значительная.
Коэффициент вариации V? часто используется для сравнения колеблемости признаков в различных рядах распределения, когда сравнивается вариация разных признаков в одной и той же совокупности или же вариации одного и того же признака в различных совокупностях, имеющих разные средние х.
Итак, мы имеем вариацию V?1 ? 17%, рассчитанную по признаку «Среднегодовая стоимость основных производственных фондов, млн. руб.» и вариацию V?2 ? 22%, рассчитанную по признаку «Выпуск продукции, млн. руб.».
Так как 0% ? V?1 ? 17% ? 40% и 0% ? V?2 ? 22% ? 40%, то колеблемость этих двух признаков незначительная, отклонение значений признаков от их средней величины небольшое.
б) Для нормальных и близких к нормальному распределений показатель V? служит индикатором однородности совокупности: принято считать, что при выполнимости неравенства:
V? ? 33% (9)
совокупность является количественно однородной по данному признаку. Чем однороднее изучаемая совокупность, тем надежнее полученная средняя х.
Мы предположили, что распределение единиц по обоим признакам близки к нормальному, значит V?1 ? 33% и V?2 ? 33%, то совокупность является количественно однородной по данным двум признакам.
в) Сопоставление средних отклонений - квадратического ?n и линейного EMBED Equation.3 позволяет сделать вывод об устойчивости индивидуальных значений признака, то есть об отсутствии среди них «аномальных» вариантов значений.
В условиях симметричного и нормального, а также близких к ним распределений между показателями ?n и EMBED Equation.3 имеют место равенства
EMBED Equation.3 EMBED Equation.3
поэтому отношение показателей ?n и EMBED Equation.3 может служить индикатором устойчивости данных: если
EMBED Equation.3 >0,8 (10)
то значения признака неустойчивы, в них имеются «аномальные» выбросы. Следовательно, несмотря на визуальное обнаружение и исключение нетипичных единиц наблюдения при выполнении Задания 1, некоторые аномалии в первичных данных сохраняться. В этом случае их следует выявить ( например, путем поиска значений, выходящих за границы ( EMBED Equation.3 )) и рассматривать в качестве возможных «кандидатов» на исключение из выборки.
В нашей задаче ?n1= 582,6331и d1= 468,7667 – это индивидуальные значения признака «Среднегодовая стоимость основных производственных фондов, млн. руб.»:
EMBED Equation.3 1?1,25*468,7667=585,9583; EMBED Equation.3 1?0,8*582,6331=466,1065 EMBED Equation.3 , значит значения признака устойчивы, в них нет «аномальных» выбросов.
?n2= 695,0313 и d2= 535,4067 – это индивидуальные значения признака ««Выпуск продукции, млн. руб.»:
d2/ ?n 2 = 0, 7567 ? 0, 76 значит значения признака устойчивы, в них нет «аномальных» выбросов.
г) Сформируем таблицу, чтобы более детально описать рассеяния признаков относительно средней арифметической, основываясь на данных таблицы 3,5:
Таблица 9 Распределение значений признака по диапазонам рассеяния признака относительно EMBED Equation.3
Основываясь на данных таблицы 9 определим процентное соотношение рассеяния значения для первого признака : 66,7% 93,4% 100%, а для второго признака 63,3% 93,4% 100%. В нормальном распределении и близких к ним вероятностные оценки диапазонов рассеяния значений признаков по правилу «трех сигм» таковы ( 68,3% 95,4 % 99,7%). Различие между процентами первого признака с правилом «трех сигм» составляет 66,7<68,3, 93,4<95,4, 100>99,7 , в случаи со вторым признаком 63,3<68,3, 93,4<95,4, 100,0>99,7.
Различие в процентах показывает, что расстояние значений первого признака от средней арифметической меньше, т.е. значений признака в двух диапазонах меньше, а в третьем больше. Для второго признака в третьем диапазоне попадает значении признака больше, а в двух остальных меньше, значит, расстояние в этих диапазонах между средней арифметической и значениями тоже меньше.
Задача 4. Дадим сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации ряда. В статистической практике для оценки вариации ряда наиболее широко применяются показатели размаха вариации, дисперсии, среднее квадратическое отклонение, среднее линейное отклонение.
В нашем примере размах вариации стоимости ОПФ составляет 2450 млн. руб., а выпуска продукции 2940 млн. руб., что на 490 млн. руб. больше , чем размах вариации стоимости ОПФ. Из этого следует, что размах вариации может служить базой расчета возможных резервов роста выборки. Таких резервов больше у признака выпуска продукции.
Среднее линейное отклонение стоимости ОПФ равно ? 468,7667, а выпуска продукции ? 535,4067. Это свидетельствует о том, что отклонение признака от средней больше у выпуска продукции.
Дисперсия стоимости ОПФ меньше, чем дисперсия у выпуска продукции на 143607,15 млн. руб.
Среднее квадратическое отклонение стоимости ОПФ составляет 582,6331 млн. руб., а у выпуска продукции 695,0313 млн. руб. Это означает, что отклонение индивидуальных значений признака выпуска продукции от средней величины больше на 112,3982 млн.руб. , чем отклонения значений признака стоимости ОПФ
Вывод: отклонения признака выпуска продукции от его средней сильнее , чем у признака стоимости ОПФ.
б) количественной однородности единиц.
Соотношение между средней, модой и медианой характеризует форму распределения. В нормальном распределении все три характеристики верны Мо = Ме = EMBED Equation.3 .
В данном случае, для показателей признака стоимости ОПФ справедливо Мо > Ме > EMBED Equation.3 т.е. 3542,5>3456,75>3420 , если представить виде кривой то ее вершина будет сдвинута вправо и левая часть окажется длиннее правой, то асимметрия левосторонняя, что означает преимущественно появления в распределении более низких значений. Для выпуска продукции 3172,75<3185<3195,62 Ме< Мо< EMBED Equation.3 если и это представить виде кривой, то вершина кривой сдвинута влево и правая часть оказывается длиннее левой , то асимметрия правосторонняя. Значит, что в распределении чаще встречаются более высокие значения признака.
г) симметричности распределений в центральной части ряда
Нормальное распределение является симметричным, и для него выполняются соотношения:
Мо = Ме = EMBED Equation.3 , As=0, Asп=0;
Нарушение этих соотношений свидетельствует о наличии асимметрии распределению. Распределение с небольшой или умеренной асимметрией в большинстве случаев по своему типу относится к нормальному.
В нормальном и близких к нему распределениях основная масса единиц ( почти 70%) располагается в центральной зоне ряда, в диапазоне ( EMBED Equation.3 ). Для оценки асимметричности распределения находят коэффициент К.Пирсона (см.формулу 8). Так коэффициент асимметричности для стоимости ОПФ составляет -0,21025237– это доказывает, что асимметрия левосторонняя АsП < 0 и для выпуска продукции коэффициент К.Пирсона равен 0,015215091– это доказывает, что асимметричность правосторонняя т.к АsП > 0. Более точный показателем асимметрии распределения значений является коэффициент асимметрии Аs:
Аs= EMBED Equation.3 (11)
Коэффициент асимметрии для признака стоимости ОПФ составляет -858984761/5944658610= -0,1445, для признака выпуска продукции 410715339/10071071250=0,0408. Чем больше |As|, тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности:
|As| ? 0.25 –асимметрия незначительная;
0.25<|As|? 0.5 –асимметрия заметная;
|As|>0.5 –асимметрия существенная. (12)
Основываясь на этом условии, следует, что асимметрия незначительна для первого признак и для второго.
Для оценки расхождений в степени крутизны кривых применяется коэффициент эксцесса Ek. Как привило, Ek вычисляется только для симметричных или близких к ним распределений по формуле:
EMBED Equation.3 -3 (13)
Для признака стоимости ОПФ Ek= -0,4725<0, следовательно, вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Для признака выпуск продукции Ek=0,3263 >0 – вершина кривой распределения располагается выше вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная.
в) надежности (типичных) средних значений признаков.
Для оценки надежности средней величины EMBED Equation.3 можно воспользоваться значениями показателя вариации V?, рассчитанного в таблице 5. В том и другом расчете коэффициент вариации входит в рамки от 0 до 40% по оценочной школе колеблемости, следовательно, его значение невелико. Индивидуальные значения признака мало отличаются друг от друга, единицы наблюдения количественно однородны и поэтому, средняя арифметическая величина является надежной характеристикой данной совокупности.
Задача 5. Используя данные таблицы 1, построим интервальный вариационный ряд по признаку среднегодовая стоимость основных производственных фондов. Для этого найдем сначала ширину интервала h:
EMBED Equation.3 h = EMBED Equation.3 (14), где k- это количество интервалов;
Ширина интервала для признака стоимости ОПФ составляет h=4645-2195/5=490 , получается 2195-2685 ,2685-3175, 3175-3665, 3665-4155, 4155-4645.
Построение ряда распределения завершается подсчетом численности единиц в каждой группе – частоты групп. Иногда распределение характеризуют с помощью накопленных частот или же используют частости и накопленные частости. Частости обычно применяются для небольших по объему совокупностей. Кроме того, они позволяют сравнивать распределения по одному и тому же признаку в разных по численности совокупностях.
Полученные данные представлены в таблице 7а:
Таблица 7а - Распределение предприятий по стоимости основных производственных фондов

Для наглядного представления интервальных рядов распределения используют графическое изображение в виде гистограммы и кумуляты:

Рисунок SEQ Рисунок \* ARABIC 2.Гистограмма и кумулята интервальный ряда.
Коэффициенты асимметричности для признака стоимости ОПФ характеризуют левостороннюю и слабо развитую асимметричность распределения.
По форме гистограммы можно установить и характер закономерности распределения. Гистограмма имеет одновершинную форму, есть основание предполагать, что выборка является однородной по данному признаку, распределение эмпирических данных близко к нормальному (наблюдается незначительная асимметрия).
Наибольшая частота соответствует также интервалу, то есть мода находиться в этом интервале. Ее величина определяется по формуле:
Мо= EMBED Equation.3 (15) где
EMBED Equation.3 - начало модального интервала;
EMBED Equation.3 - частота, соответствующая модальному интервалу;
EMBED Equation.3 - частота интервала, предшествующего модальному;
EMBED Equation.3 - частота интервала, следующего за модальным;
Получается, что для признака стоимости ОПФ Мо= 3175+490*(11-5/(11-5)*(11-7)) = 3469. Нам необходимо сравнить ее с показателем Мо несгруппированного ряда данных (см. таблицу 3). Итак, 3542.5>3469, поэтому мода несгруппированного ряда данных больше на 73.5.

Анализ генеральной совокупности
Задача 1. Генеральные показатели EMBED Equation.3 , EMBED Equation.3 , As, Ek рассчитаны с помощью инструмента Описательная статистика, и их значения приведены в таблице 3.
Дисперсию генеральной совокупности может быть оценена непосредственно по выборочной дисперсии EMBED Equation.3 . В математической статистике доказано, что при малом числе наблюдений (особенно при n ?40-
50) для вычисления генеральной дисперсии EMBED Equation.3 по выборочной дисперсии EMBED Equation.3 следует использовать формулу:
EMBED Equation.3 (16)
Получим, что для признака стоимости ОПФ дисперсия равнв 351166,9482 , что на 11705,5649 больше дисперсии выборочной совокупности этого же признака, дисперсия признака выпуск продукции составляет 499 726,0636, что на 16657,5355 больше чем дисперсия признака выпуска продукции в выборочной совокупности.
Среднее стандартное отклонение рассчитывается по формуле :
EMBED Equation.3 (17)
В отличии от дисперсии среднее квадратическое отклонение является абсолютной величиной и выражается в единицах измерения варьирующего признака.
Отклонение для первого признака составит 592,5934 млн. руб. это на 9,9603 млн. руб. больше, чем в выборочной совокупности , для второго признака 706,9131 млн. руб., что на 11,8817 млн. руб. больше , чем отклонение второго признака в выборочной совокупности.
Для нормального распределения справедливо равенство:
EMBED Equation.3 (18)
В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха
вариации признака в генеральной совокупности.
Для стоимости ОПФ размах вариации в генеральной совокупности составит 3495,7986 , что на 1045,7986 больше размаха вариации признака в выборочной совокупности, а для второго признака 4170,1878, что на 3475,1565 больше в выборочной совокупности.
Коэффициент асимметричности рассчитывается по формуле (3). Для стоимости ОПФ он составит -0,1525. Для выпуска продукции коэффициент асимметричности равен 0,0430.
Значение коэффициента эксцесса также рассчитано в таблице 3.
Найдя значения показателей генеральной совокупности, можно сделать вывод, что отклонение от средней в генеральной совокупности больше, чем отклонение от средней в выборочной совокупности.
Необходимо сформировать для показателей генеральной совокупности отдельную таблицу с заголовком «Описательные статистики генеральной совокупности»:
Таблица № 10 Описательная статистика генеральной совокупности
Задание 2.
Для изучаемых признаков нужно рассчитать:
а) среднюю ошибку выборки, которая рассчитана и приведена в таблице 3 (параметр Стандартная ошибка). Для ответа на этот вопрос следует выбрать ее из этой таблицы.
Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности. Для среднего значения средняя ошибка выборки выражает среднее квадратическое отклонение выборочной средней от математического ожидания генеральной средней. Величина средней ошибки выборки зависит от объема выборки n и от величины вариации признака ?: чем больше n и меньше ?, тем меньше ошибка. Средняя ошибка выборки может быть определена по формуле:
EMBED Equation.3 (19)
Итак, средняя ошибка выборки для признака стоимость ОПФ равна EMBED Equation.3 ? 108,1923, для признака выпуск продукции EMBED Equation.3 ? 129,0641.

б) предельную ошибку выборки. Оценки предельных ошибок выборки имеются в таблице 3, 4а, 4б. На основе этих оценок и формулы (21) необходимо сформировать таблицу 11.
Предельная ошибка выборки определяет границы, в пределах которых лежит генеральная средняя EMBED Equation.3 . В математической статистике доказано, что предельная ошибка выборки, кратна средней ошибке с коэффициентом кратности t, зависящим от значения доверительной вероятности P:
EMBED Equation.3 (20)
Величина коэффициента t (называемого также коэффициентом доверия) является нормированным отклонением, его значения подсчитаны для различных уровней надежности P и протабулированы (хранятся в таблицах интегральной функции Лапласа).
Предельная ошибка выборки позволяет определить предельные значения показателей генеральной совокупности и их доверительные интервалы. Для генеральной средней предельные значения и доверительный интервалы определяются выражениями:
EMBED Equation.3 (21)
Таблица 11 –Предельные ошибки выборки и ожидаемые границы для генеральной средней
Задача 3. Если распределение единиц выборочной совокупности близко к нормальному, выборка является репрезентативной ( EMBED Equation.3 и EMBED Equation.3 значения показателей расходятся незначительно) и при этом коэффициенты AsN, EkN, указывают на небольшую или умеренную величину асимметрии и эксцесса соответственно, то есть основание полагать, что распределение единиц генеральной совокупности по изучаемому признаку будет близко к нормальному.
Значения коэффициентов асимметрии As и эксцесса Ek имеются в таблице 10. Получим, что для первого признака коэффициент асимметрии равен-0,1525, для второго признака 0,0430. На основе оценочной шкалы асимметричности, можно сделать вывод, что асимметрия незначительная как для первого признака, так и для второго.
Показатель эксцесса для первого признака -0,3449 меньше нуля, тогда вершина кривой распределения лежит ниже вершины нормальной кривой, а форма более пологая по сравнению с нормальной. Показатель эксцесса для второго признака -0,2053 тоже меньше нуля, тогда вершина кривой распределения лежит ниже вершины нормальной кривой, а форма более пологая по сравнению с нормальной.
Лабораторная работа №2
В лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак X) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.
В процессе статистического исследования необходимо решить ряд задач.
1. Установить наличие статистической связи между факторным признаком X и результативным признаком Y:
а) графическим методом;
б) методом сопоставления параллельных рядов;
2. Установить наличие корреляционной связи между признаками X и Y методом аналитической группировки.
3. Оценить тесноту связи признаков X и Y на основе:
а) эмпирического корреляционного отношения EMBED Equation.3 ;
б) линейного коэффициента корреляции r.
4. Построить однофакторную линейную регрессионную модель связи признаков X и Y, используя инструмент Регрессия настройки Пакет анализа.
5. Оценить адекватность и практическую пригодность построенной линейной регрессионной модели, указав:
а) доверительный интервалы коэффициентов a0, a1 EMBED Equation.3 ;
б) степень тесноты связи признаков X и Y;
в) погрешность регрессионной модели.
6. Дать экономическую интерпретацию:
а) коэффициента регрессии а1
б) коэффициента эластичности Kэ ;
в) остаточных величин EMBED Equation.3 .
7. Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструментов Мастер диаграмм. Построить для этого уравнения теоретическую кривую регрессии.
Задание 1. В статистических исследованиях рассматривается особая разновидность стохастических связей – статистические связи.
Стохастическую связь между случайными значениями признаков X и Y называют статистической, если с изменением значений xi фактора X закономерным образом изменяется какой-либо из обобщающих статистических показателей распределения yi1, yi2, …, yik признака Y.
Наиболее удобной формой представления корреляционных зависимостей при большом числе наблюдений являются групповые аналитические таблицы, отражающие результаты аналитической группировки совокупности по факторному признаку. Примером аналитической таблицы в нашей работе является таблица 2.2:
Таблица 2.2. Зависимость выпуска продукции от среднегодовой стоимости ОПФ (аналитическая группировка)
При построении аналитической таблицы для каждой выделенной i-й группы подсчитывается численность составляющих ее факторных значений x, а также суммарное и среднее EMBED Equation.3 групповые значения результативного признака.
а) В случае сгруппированных факторных значений для графического представления применяют эмпирическую линию связи, называемая также эмпирической линией регрессии.

Рисунок SEQ Рисунок \* ARABIC 3 Корреляционное поле и эмпирическая линия связи для групповых средних EMBED Equation.3 .
б) К элементарным статистическим методам выявления взаимосвязей признаков относятся метод сопоставления взаимосвязанных параллельных рядов. Метод заключается в выявлении статистической связи признаков путем простого параллельного сравнения факторных и результативных значений у отдельных единиц совокупности. Для этого значения х1, х2, …,хn фактора ранжируются в порядке возрастания (или убывания). Затем строится ряд соответствующих значений результативного признака Y, и путем сопоставления двух построенных рядов выявляется либо наличие (и направление) связи, либо ее отсутствие.
В данной работе ранжируем исходный данные (см. таблица 1) по признаку стоимости ОПФ. С возрастанием значений признака стоимости ОПФ значения признака выпуска продукции также в целом возрастают при наличии некоторых отклонений от этой общей тенденции. Следовательно, между признаками возможно наличие прямой корреляционной связи:
Таблица 2.1 – Исходные данные
Задание 2. Если при изменении xi имеет место закономерное изменение средних арифметических значений EMBED Equation.3 распределения признака Y, то статистическая связь называется корреляционной.
При выявлении наличия связи методом аналитической группировки формируется группировка единиц совокупности по факторному признаку Х, а затем для каждой выделенной j-й группы рассчитываются средние значения EMBED Equation.3 результативного признака Y. Если при переходе от одной группы к другой средние значения EMBED Equation.3 будут меняться с определенной закономерностью – возрастать или убывать, то между признаками X и Y существует корреляционная связь.
Как, например, в таблице 2.2 средние значения выпуска продукции меняются с определенной закономерностью, а именно возрастают, следовательно, между стоимостью ОПФ и выпуском продукции корреляционная связь есть.
Задание 3. Теснота корреляционной связи характеризует степень ее приближения к функциональной связи. Степень тесноты связи зависит от степени варьирования результативного признака Y при фиксированном значении факторного признака Х.
При использовании метода аналитической группировки оценивается степень тесноты корреляционной связи между признаками, для чего рассчитывается специальный показатели :
r – линейный коэффициент корреляции;
EMBED Equation.3 - эмпирическое корреляционное отношение;
EMBED Equation.3 - эмпирический коэффициент детерминации.
Расчет показателей производится по формулам:
EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 (22)
n- число единиц наблюдения;
EMBED Equation.3 - общая дисперсия признака Y;
где EMBED Equation.3 - межгрупповая дисперсия признака Y, которая определяется: EMBED Equation.3 или EMBED Equation.3 = EMBED Equation.3 - EMBED Equation.3 (23) , где EMBED Equation.3 - внутригрупповая дисперсия j-й группы результативных значений j=1,2,3,4,5.
EMBED Equation.3 - общая дисперсия признака Y, которая вычисляется по формуле:
EMBED Equation.3 или EMBED Equation.3 = EMBED Equation.3 + EMBED Equation.3 (24)
Результаты выполненных расчетов представлены в таблице 2.4. и 2.5.:
Таблица 2.4 Дисперсии и эмпирические показатели тесноты взаимосвязи
Таблица 2.5. Линейный коэффициент корреляции признаков.
В нашем случае общая дисперсия признака Y, обусловленная влиянием на Y всех факторов, включая X, равна EMBED Equation.3 = 483068,5281. Межгрупповая дисперсия результативного признака Y, обусловленная влиянием только фактора X - EMBED Equation.3 =393693,9708. Эмпирический коэффициент детерминации (причинности), определяющий силу, то есть оценивающий, насколько вариация результативного признака Y объясняется вариацией фактора X, равна EMBED Equation.3 =0,8150. Эмпирическое корреляционное отношение, выступающее как универсальный показатель тесноты связи при любой форме связи (как линейной, так и нелинейной) - EMBED Equation.3 =0,9028. Линейный коэффициент корреляции, изменяющий тесноту связи в предположении линейности взаимосвязи признаков X и Y - r=0, 9132.
Для показателей силы и тесноты корреляционной связи характерна свойство: чем ближе значение показателя ( EMBED Equation.3 , EMBED Equation.3 , r) к единицы , тем теснее связь и больше сила связи. Для качественной оценки тесноты связи используется шкала Чэддока, в которой значение показателей тесноты связи |r| и EMBED Equation.3 от 0,9 до 0,99 характеризует связь как весьма высокую. Знак «+» при r указывает направление связи : на прямую линейную зависимость.
Задание 4. Простейшей формой корреляционной связи признаков является парная линейная корреляция, представляющая собой линейную зависимость результативного признакаY от факторного признака X.
Уравнение парной линейной корреляционной связи имеет следующий вид:
EMBED Equation.3 (25), где
EMBED Equation.3 - расчетное теоретическое значение результативного признака Y, полученное по уравнению регрессии;
EMBED Equation.3 - среднее значение признака Y в точке х=0;
EMBED Equation.3 , EMBED Equation.3 - коэффициенты уравнения регрессии (параметры связи).
Уравнение парной линейной корреляции показывает среднее изменение результативного признака Y при изменении фактора X на одну единицу его измерения, то есть вариацию признака Y, которая приходится на единицу фактора X. Знак параметра указывает направление этого измерения.
Коэффициенты уравнения EMBED Equation.3 , EMBED Equation.3 отыскиваются методом наименьших квадратов (МНК). Критерий метода наименьших квадратов можно записать таким образом:
EMBED Equation.3 (26)
Для нахождения параметров EMBED Equation.3 , EMBED Equation.3 используют систему нормальных уравнений МНК:
EMBED Equation.3 (27)
Решая полученную систему, находим параметры EMBED Equation.3 EMBED Equation.3 , EMBED Equation.3 :
EMBED Equation.3 ; EMBED Equation.3 (27)
Иногда эти коэффициенты удобнее вычислять по формулам:
EMBED Equation.3 = EMBED Equation.3 ; EMBED Equation.3 = EMBED Equation.3 (28).
Параметры уравнения регрессии рассчитаны с помощью инструмента Регрессия настройки Пакет анализа и равны EMBED Equation.3 = -529,9781 и EMBED Equation.3 = 1,0894. Получим EMBED Equation.3 EMBED Equation.3 = 1,0894х-529,9781. Для большей уверенности проверим систему нормальных уравнений МНК для линейного уравнения регрессии:
EMBED Equation.3
EMBED Equation.3 верно.
Мы получили линейное уравнение регрессии EMBED Equation.3 EMBED Equation.3 = 1,0894х-529,9781, которое показывает, что с увеличением стоимости ОПФ на один млн. руб. в среднем выпуск продукции возрастет на 1,0894 млн. руб.
.
Задание 5. Оценим адекватность и практическую пригодность построенной линейной регрессионной модели.
а) Рассчитаем доверительный интервалы коэффициентов a0, a1 : EMBED Equation.3
EMBED Equation.3 (29), где
t-коэффициент доверия, соответствующий заданному уровню надежности P.
Для наглядности поместим полученные результаты в таблицу 12:
Таблица 12 – Доверительный интервал коэффициентов a0, a1
Проверим статистическую значимость параметра а k (т.е. неслучайность найденного значения а k , его типичность для всей генеральной совокупности) путем сопоставления величины а k со средней ошибкой EMBED Equation.3 исходя из t- критерия Стъюдента:
EMBED Equation.3 (30)
Получаем что EMBED Equation.3 = 11,8569 > tтабл (?=0,05, 28)=2,04 , то параметр а1 считается значимым.
б) Теснота связи признаков X и Y находится на основе следующих показателей:
индексов детерминации R2 –показывает какая часть общей вариации расчетных значений признака Y объясняется вариацией фактора X;
индекс корреляции R – оценивает степень тесноты чвязи между факторными признаками хi и расчетными результативными значениями EMBED Equation.3 ;
линейный коэффициент корреляции r, используемый для измерения тесноты связи признаков в регрессионной модели в случае линейной функции связи;
которые определяются по следующими формулами:
EMBED Equation.3 ; EMBED Equation.3 ; r= EMBED Equation.3 (31)

Из этого следует, что линейный коэффициент корреляции и индекс корреляции принимает значение 0,9132 близкое к единицы и, что свидетельствует о тесной связи признаков в регрессионной модели. Индекс детерминации равный 0,8339 означает, что степень тесноты связи признаков в уравнении регрессии высокое. При этом более 80% (83,39%) вариации расчетных значений признака Y объясняется влиянием признака X, что позволяет считать применение синтезированного уравнения регрессии правомерным.
в) Так как показатели тесноты связи R и r рассчитываются на основе совокупности наблюдаемых эмпирических данных, значения которых могли быть искажены влиянием случайных факторов, то проверим показатели тесноты связи на их неслучайность с помощью критерия Стьюдента, фактическое значение которого рассчитывается по формуле:
EMBED Equation.3 (32)
Расчетное значение критерия EMBED Equation.3 = 12,0701 сравнивается с критическим tтабл , определяемым по таблице значений t-Стъюдента (при ?=0,05 k=28 (n-2)) равный 2,0484 ,то tрасч > tтабл и величина коэффициент корреляции признается значимой.
Для оценки значимости индекса корреляции R применяется F- критерии Фишера FR, фактическое значение которого определяется по формуле:
EMBED Equation.3 (33), где
m- число параметров уравнения регрессии .
Так как Fрасч = 140,6851, что больше Fтабл (при ?=0,05 , k1 = 1k2 =28), то величина найденного индекса корреляции R признается значимой.
Значимость показателей тесноты связи R и r означает , что зависимость между признаками X и Y регрессионной модели является статистически существенна, т.е. построенная регрессионная модель в целом адекватна исследуемому процессу. Следовательно, выводы, сделанные на основе регрессионной модели, построенной по данным органической выборки, можно с достаточной вероятностью распространить на всю генеральную совокупность.
В качестве критерия адекватности регрессионной модели используются следующие модели:
Средняя квадратическая ошибка уравнения регрессии EMBED Equation.3 , представляющая собой среднее квадратическое отклонение эмпирических значений признака Y от теоретических:
EMBED Equation.3 (34)
средняя ошибка аппроксимации EMBED Equation.3 , выраженная в процентах:
EMBED Equation.3 100 % (35)
В адекватных моделях ошибки EMBED Equation.3 и EMBED Equation.3 не должны превышать 12-15%. В нашей задаче получаем, что средняя ошибка аппроксимации составляет 8 %, а отношение EMBED Equation.3 = 9 % , поэтому модель адекватна.
Задание 6.
а) В процессе анализа прежде всего выясняется, как факторный признак влияет на величину результативного признака. Чем больше величина коэффициентов регрессии EMBED Equation.3 при к-й степени фактора X, тем значительнее влияние данного признака на результативный.
В нашем случае линейного уравнения регрессии EMBED Equation.3 = 1,0894х-529,9781 величина коэффициента EMBED Equation.3 = 1,0894 показывает, что с увеличением стоимости ОПФ на один млн. руб. в среднем выпуск продукции возрастает на 1,0894 млн. руб.
б) С целью расширения возможностей экономического анализа используется коэффициент эластичности, который показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
Для определения коэффициента эластичности используют формулу:
Кэ = EMBED Equation.3 EMBED Equation.3 (36)
Вычислим коэффициент эластичности для нашего задания :
Кэ=1,0894*(3420/3195,6167)=1,1659 . Это означает, что при росте стоимости ОПФ на 1% выпуск продукции возрастет на 1,1659%.
в) Анализируя остатки EMBED Equation.3 (37), характеризующие отклонения i-х наблюдений от значений EMBED Equation.3 , которые следует ожидать в среднем, можно сделать ряд практических выводов об эффективности экономической деятельности рассматриваемых хозяйствующих субъектов и выявить скрытые резервы их развития и повышения деловой активности. При этом наиболее значительный экономический интерес представляют наибольшие и наименьшие положительные и отрицательные отклонение EMBED Equation.3 .
При построении регрессионной модели EMBED Equation.3 = 1,0894х-529,9781 численное значение коэффициента EMBED Equation.3 = 1,0894 выбрано так, чтобы обеспечить наименьшие возможные остатки EMBED Equation.3 для всех случаев наблюдения (см. таблицу 2.6.). Наименьшее положительное (отрицательное) отклонение EMBED Equation.3 =44,95 ( EMBED Equation.3 =-48,67) выявлено при 13 (12) наблюдении, что говорит о наименьшей эффективности (не эффективности) экономической деятельности рассматриваемого хозяйствующего субъекта. Наибольшее положительное (отрицательное) отклонение EMBED Equation.3 =533,18 ( EMBED Equation.3 =-517,71) находится при 20 (24) наблюдении, что указывает на наивысшую эффективность (не эффективность) экономического субъекта.
Таблица 2.6. Вывод остатков
Задание 7. В случаях, когда рассматриваются альтернативные регрессионные модели, индекс детерминации EMBED Equation.3 используется в качестве критерия предпочтительности того или иного уравнения регрессии: наилучшей считается модель с наибольшим значением EMBED Equation.3 .
Путем визуального анализа значения R2 выбираем по максимальной величине R2 наиболее адекватное уравнение регрессии.
В итоге, наиболее адекватное уравнение регрессии и его график имеет вид :

Рисунок SEQ Рисунок \* ARABIC 4. Наиболее адекватное уравнение регрессии и его график.