EMBED MSPhotoEd.3
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант № 76
Выполнил: ст. III курса
Ф.И.О.
(периферия)
Специальность: финансы и кредит
№ ЛИЧНОГО ДЕЛА: №
Проверил:_Сергеева М.Е.
____Доцент____
Должность
Брянск 2006 г.
Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Таблица 1
Исходные данные
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (EMBED Equation.3), моду (Мо), медиану (Ме), размах вариации (R), дисперсию( EMBED Equation.3 ), средние отклонения – линейное (EMBED Equation.3) и квадратическое (?n), коэффициент вариации (V?), структурный коэффициент асимметрии К.Пирсона (Asп).
На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ).
Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности
Рассчитать генеральную дисперсию EMBED Equation.3 , генеральное среднее квадратическое отклонение EMBED Equation.3 и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Статистический анализ выборочной совокупности
1. Количество аномальных единиц наблюдения – 2, согласно табл.2:
предприятие №31 со среднегодовой стоимостью производственных фондов – 7400 млн.руб. и выпуском продукции – 1950млн.руб, и предприятие №12 со среднегодовой стоимостью производственных фондов –2330 млн.руб. и выпуском продукции – 5850млн.руб
2. Рассчитанные выборочные показатели представлены в таблицах 3 5. Сформируем на основе этих таблиц единую таблицу значений выборочных совокупностей:
3. На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценим:
а) степень колеблемости значений признаков в совокупности;
Для этого необходимо оценить коэффициентом вариации V?
Принята следующая оценочная шкала колеблемости признака:
0%<V?40% - колеблемость незначительная;
40%< V?60% - колеблемость средняя (умеренная); (6)
V?>60% - колеблемость значительная.
Вывод: В данной задаче:
V?1=17,02%<40% - колеблемость незначительная;
V?2=21,75%<40% - колеблемость незначительная.
б) степень однородности совокупности по изучаемым признакам. Для нормальных и близких к нормальному распределений показатель V? служит индикатором однородности совокупности: принято считать, что при выполнимости неравенства
V?33% (7)
совокупность является количественно однородной по данному признаку.
Вывод: Изучаемая совокупность является качественно однородной по обоим признакам, так как для них выполняется условие V?33% (для первого признака V? =17,0176, для второго V? =21,7495)
в) устойчивость индивидуальных значений признаков;
Устойчивость индивидуальных значений признаков оценим на основе сопоставления средних отклонений – квадратического EMBED Equation.DSMT4 и линейного EMBED Equation.DSMT4 . В условиях распределений, близких к нормальному, между показателями EMBED Equation.DSMT4 и EMBED Equation.DSMT4 имеет место равенство: EMBED Equation.DSMT4 поэтому отношение показателей EMBED Equation.DSMT4 и EMBED Equation.DSMT4 может служить индикатором устойчивости данных.
По первому признаку: EMBED Equation.3
По второму признаку: EMBED Equation.3 EMBED Equation.DSMT4 EMBED Equation.DSMT4
Вывод: Поскольку индикатор устойчивости данных для признака «среднегодовая стоимостью производственных фондов» больше 0,8, то делаем вывод, что значение данного признака неустойчивы, в них имеются «аномальные» выбросы. Поэтому, несмотря на визуальное обнаружение и исключение нетипичных единиц наблюдений, некоторые аномалии в первичных данных продолжают сохраняться. По второму признаку делаем вывод об устойчивости значений признака.
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ). Сформируем следующую таблицу:
Таблица 9
Распределение значений признака по диапазонам рассеяния признака относительно EMBED Equation.3
Сопоставление полученных процентных соотношений рассеяния значений признаков по диапазонам с ожидаемым по правилу «трех сигм» показывает, что в первый диапазон попадает меньше значений. Соответственно по первому признаку – 66,7%, по второму – еще меньше 63,3% против ожидаемых 68,3%. Во второй диапазон по обоим признакам попадает по 93,3% значений, что также меньше вероятностной оценки - 95,4%. В третьем диапазоне появляются все значения по обоим признакам (ожидаемое – 99,7%).
Вывод: распределение данных по диапазонам близко к нормальному.
Дадим сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) Вариации признаков. Сравнение показателей вариации для двух изучаемых признаков показывает, что по второму признаку (выпуск продукции) величины всех показателей вариации выше:
размах вариации 4680 против 3900 млн. руб.;
дисперсия 1224068,69 против 860176,2;
среднее линейное отклонение 852,28 против 746,2 млн.руб.;
среднее квадратическое отклонение 1106,38 против 927,46 млн.руб.;
коэффициент вариации 21,75% против 17,02%.
Вывод: степень колеблемости значений второго признака выше.
б) Количественной однородности единиц. Величина коэффициента вариации по второму признаку хотя и больше, но она не превышает 33%, следовательно, в обеих совокупностях единицы количественно однородны.
в) Надежности (типичности) средних значений признаков. Количественная однородность единиц первой совокупности означает, что индивидуальные значения среднегодовой стоимости основных фондов мало отличаются друг от друга и средняя арифметическая величина EMBED Equation.3 =5450 млн. руб. является надежной характеристикой данной совокупности. Точно также и средняя величина выпуска продукции EMBED Equation.3 =5086,9 млн. руб. является типичной для своих индивидуальных значений.
г) Симметричности распределений в центральной части ряда.
Для этого сравним величины структурного коэффициента асимметрии К.Пирсона (Asп) между собой и с оценочной шкалой асимметричности (13)
|As|EMBED Equation.30,25 - асимметрия незначительная;
0,25<|As| EMBED Equation.3 0,5 - асимметрия заметная (умеренная); (13)
|As|>0,5 - асимметрия существенная.
Вывод: По первому признаку Asп=-0,21. Следовательно, имеет место незначительная левосторонняя асимметрия (Asп <0 и по модулю не превышает 0,25).
По второму признаку Asп=0,015 (Asп>0 и по модулю не превышает 0,25). Следовательно, асимметрия правосторонняя, но ничтожно малая. Распределение можно считать симметричным.
Кроме того, для первого признака справедливо неравенство:
EMBED Equation.DSMT4 EMBED Equation.DSMT4 , 5450<5508,5<5645
Это также указывает на левостороннюю асимметрию, т.е. вершина кривой распределения немного сдвинута вправо, а левая ветвь кривой оказывается длиннее правой. Для второго признака все три характеристики центра распределения очень близки между собой, поэтому можно записать: EMBED Equation.DSMT4 , 5086,9 EMBED Equation.DSMT4 5050,5 EMBED Equation.DSMT4 5070. Это подтверждает вывод о симметричности распределения.
5. Анализ полученного интервального вариационного яда и формы гистограммы показывает, что эмпирическое распределение имеет сходство (хотя и не строгое) с нормальным распределением. Проявляется оно в том, что крайние значения признака (близкие к Xmax и Xmin) встречаются много реже, чем серединные, гистограмма имеет одновершинную форму, она приблизительно симметрична, так как ее «хвосты» не очень длинны (за пределами интервала EMBED Equation.DSMT4 лежат по 6,7% вариантов), а в диапазоне EMBED Equation.DSMT4 располагается основная масса единиц – 66,7%. Таким образом, характер (тип) распределения единиц совокупности по признаку «среднегодовая стоимость основных производственных фондов» можно считать близким к нормальному (наблюдается незначительная левосторонняя асимметрия, что установлено в задании 4г.)
Для получения интервального ряда значение моды рассчитаем по формуле:
EMBED Equation.DSMT4
Модальный интервал 5060-5840, следовательно xMo=5060, величина модального интервала h=5840-5060=780, частота модального интервала fMo=11, частота предмодального интервала fMo-1=5, частота послемодального интервала fMo+1=7.
Таким образом, после расчета, Mo=5528 млн.руб. Показатель моды, рассчитанный для интервального ряда данных (5528 млн.руб.) не совпадает с аналогичным показателем для несгруппированных данных (5645 млн.руб.). Это объясняется разной методикой расчета.
По несгруппированным данным модой является наиболее часто встречающийся вариант. Им оказалось значение признака 5645, которое встретилось в совокупности три раза, другие значения присутствовали в единственном числе. По сгруппированным данным величина моды зависит от нижней границы, размера и частоты модального интервала, а также от предмодальной и послемодальной частот.
Статистический анализ генеральной совокупности
1. На основании таблицы 3 сформируем таблицу 10 для генеральных показателей совокупности:
Таблица 10
Описательные статистики генеральной совокупности
Степень расхождения между EMBED Equation.DSMT4 EMBED Equation.DSMT4 устанавливается по формуле (16):
EMBED Equation.DSMT4 .
Поправочный коэффициент n/(n-1)=30/(30-1)=30/29=1.034482758. Его значение близко к единице, следовательно, степень расхождения между EMBED Equation.DSMT4 и EMBED Equation.DSMT4 незначительная. Степень расхождения между EMBED Equation.DSMT4 и EMBED Equation.DSMT4 еще меньше и составляет 1,017095255.
Определим прогнозное значение размаха вариации признака в генеральной совокупности: EMBED Equation.DSMT4
Степень расхождения между EMBED Equation.DSMT4 и EMBED Equation.DSMT4
по первому признаку =5659,871742/3900 = 1,451249164;
по второму признаку = 6751,174099/4680=1,442679698.
Вывод: Прогнозное значение EMBED Equation.DSMT4 по первому признаку превосходит EMBED Equation.DSMT4 в 1,45 раза, по второму – в 1,44 раза, т.е. степень расхождения между EMBED Equation.DSMT4 и EMBED Equation.DSMT4 следует считать существенной.
2. Для изучаемых признаков рассчитать:
а) Средние ошибки выборки (параметр Стандартная ошибка) рассчитаны и приведены в табл. 3. «Описательные статистики»
б) Оценки предельных ошибок выборки имеются в табл.3,4а, 4б. На основе этих оценок и формулы (15) определим ожидаемые границы для генеральных средних, результаты представим в таблице 11.
Таблица 11
Предельные ошибки выборки и ожидаемые границы для генеральной совокупности
Ожидаемые границы для генеральных средних вычисляются как среднее по признаку ± предельные ошибки выборки для каждой доверительной вероятности
3. Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Поскольку распределение единиц выборочной совокупности по каждому признаку близко к нормальному, выборка является репрезентативной (значение показателей EMBED Equation.DSMT4 и EMBED Equation.DSMT4 расходятся незначительно) и при этом коэффициент асимметрии по обоим признакам меньше 0,25 (табл.3). Т.е. есть основание полагать, что распределение единиц генеральной совокупности близко к нормальному распределению.
Коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений. В нашем случае для обоих признаков он <0, следовательно вершина кривой эмпирического распределения лежит несколько ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от Xmax до Xmin.
Экономическое содержание задач
статистического исследования
Типичны ли образующие выборку предприятия по значениям изучаемых экономических показателей?
В результате визуального анализа диаграмму рассеяния значений показателей, были выделены 2 предприятия с резко выделяющимися характеристиками (см. табл.2): № 31 с максимальной стоимостью основных производственных фондов (7400 млн.руб.) и минимальным выпуском продукции (1950 млн.руб.) и № 12 - с минимальной стоимостью основных производственных фондов (2330 млн.руб.) и достаточно высоким выпуском продукции (5850 млн. руб.). Остальные, образующие выборку предприятия, типичны по значениям изучаемых экономических показателей.
2. Типичный уровень для предприятий среднегодовой стоимости основных фондов – 5450млн. руб., а типичный уровень выпуска продукции - 5086.9 млн.руб.
Наиболее характерные для предприятий значения показателей представлены в таблице:
В 1 признак входят 20 предприятий (№№2,3,4,6,7,9,10,12,13,16,17,18,19,21,23,24,25,27,28,29), во 2 признаке 19 предприятий (№№1,2,3,4,6,8,9,12,13,16,17,19,23, 24,25,27,28,29,30)
3. Насколько сильны различия в экономических характеристиках предприятий выборочной совокупности? Можно ли утверждать, что выборка сформирована из предприятий с достаточно близкими значениями по каждому из показателей?
Предприятия достаточно однородны по обоим изучаемым экономическим характеристикам, т.к. коэффициент вариации не превышает 33%. При этом по первому признаку выборка сформирована из предприятий с более близкими значениями (V?=17,02%), чем по выпуску продукции (V?=21,75%). Максимальное расхождение в значениях показателей:
по первому признаку – 3900 млн.руб.
по второму признаку – 4680 млн.руб.
4. Какова структура предприятий выборочной совокупности по среднегодовой стоимости основных фондов? Каков удельный вес предприятий с наибольшими, наименьшими и типичными значениями данного показатели? Какие именно это предприятия?
Структура предприятий выборочной совокупности по среднегодовой стоимости основных фондов представлена в таблицы 7.
Удельный вес предприятий с типичными значениями рассматриваемого показателя – 36,7%. Модальный интервал – 5060-5840 млн.руб. В него вошли 11 предприятий (№№3,4,6,7,9,12,13,16,24,25,27).
В группу с наименьшей стоимостью основных фондов 3500-4280 млн.руб. входят 4 предприятия (13,3%) (№№1,5,22,26).
В группу с наибольшей стоимостью основных фондов 6620-7400 млн.руб. входят 3 предприятия (10%) (№№11,15,20).
На основе анализа можно сделать вывод о том, что большинство предприятий сосредоточены в модальном интервале, то есть в интервале с наиболее типичными значениями изучаемого показателя.
5. Носит ли распределение предприятий по группам закономерный характер и какие предприятия (с более высокой или более низкой стоимостью основных фондов) преобладают в совокупности?
Гистограмма ряда распределения по среднегодовой стоимости основных фондов представлена на рисунке 1. По гистограмме визуально можно установить, что распределение предприятий по группам носит закономерный характер. Судя по величине показателя асимметрии EMBED Equation.DSMT4 = -0,21025237, имеет место незначительная левосторонняя асимметрия ( EMBED Equation.DSMT4 <0 и по абсолютной величине не превышает 0,25). Это означает, что в совокупности чаще встречаются предприятия с более низкой стоимостью основных фондов. Действительно, в 1-ой группе на одно предприятие больше, чем в 5-ой.
6. Каковы ожидаемые средние величины среднегодовой стоимости основных фондов и выпуска продукции на предприятиях корпорации в целом? Какое максимальное расхождение в значениях показателя можно ожидать?
Максимальное расхождение в значениях первого показателя можно ожидать в размере 5659,87 млн.руб., второго – 6751,17 млн.руб.