EMBED MSPhotoEd.3 ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант № 173
Выполнила: Кирюхина Ю. О., 3 курс, вечер,
финансы и кредит, 05ффд13662
Проверила: Демидова Л. Н.
Калуга, 2007 г.
Постановка задачи
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C35. Для демонстрационного примера (ДП) выборочные данные приведены в табл. 1-ДП.
Таблица 1-ДП
Исходные данные демонстрационного примера
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (EMBED Equation.3), моду (Мо), медиану (Ме), размах вариации (R), дисперсию( EMBED Equation.3 ), средние отклонения – линейное (EMBED Equation.3) и квадратическое (?n), коэффициент вариации (V?), структурный коэффициент асимметрии К.Пирсона (Asп).
На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ).
Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности
Рассчитать генеральную дисперсию EMBED Equation.3 , генеральное среднее квадратическое отклонение EMBED Equation.3 и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
Результативные таблицы и графики
График 1. Диаграмма рассеяния
EMBED Excel.Chart.8 \s
График 2. Аномальные значения признаков на диаграмме рассеяния
EMBED Excel.Chart.8 \s
График 3. Гистограмма и куммулята интервального ряда распределения
EMBED Excel.Chart.8 \s
Статистические свойства изучаемой совокупности
(условия задач определены в п. Постановка задачи)
Экономическая интерпретация результатов статистического
исследования предприятий
Анализ выборочной совокупности
Задача 1. При проведении статистического исследования однородности совокупности среди исходных данных были выявлены два резко выделяющихся значения признаков («выбросов данных»). Это 12 и 31 единицы наблюдения (см. табл. 2 и граф.). Диаграмма рассеяния (см. граф.1) в целом обладает положительной динамикой, т.е. связь между значениями признаков стоимости основных фондов и выпуска продукции прямая. Согласно графику 1 образующие выборку предприятия по значениям изучаемых экономических показателей типичны, наблюдается прямая корреляционная зависимость, т.е. с увеличением стоимости основных фондов увеличивается и выпуск продукции предприятий. Но для предприятий 12 и 31 такая зависимость отсутствует, т.е стоимость основных фондов не соответствует выпуску продукции. У предприятия 12 выпуск продукции не требует высокой стоимости основных средств (напр. из-за специфической специализации предприятия). На балансе предприятия 31 содержится слишком много основных средств, которые не используются.
Задача 2. Для представления полученных результатов объединяем описательные статистики (табл. 3) и выборочные показатели вариации и асимметрии (табл. 5) в одну таблицу.
По выборочным данным по 32 предприятиям установлено, что средняя стоимость основных производственных фондов составила 122400 млн. руб., а средний выпуск продукции составил 11412,91667 млн. руб. Стандартная ошибка стоимости основных производственных фондов составила 386,4009256 млн. руб., а стандартная ошибка выпуска продукции составила 460,9431249 млн. руб.
Медиана стоимости основных производственных фондов равна 12371,25 млн. руб., означает что половина предприятий выборочной совокупности имеет стоимость больше 12371,25 млн. руб., а другая половина меньше этой величины. Аналогично, по выпуску продукции 50% вариантов больше 11375 млн. руб., 50% – меньше.
Модальное значение стоимости основных производственных фондов составляет 12170 млн. руб., т.е. больше среднего значения, следовательно, в выборке чаще встречаются значения основных производственных фондов выше средней величины. По выпуску продукции мода меньше среднего значения, следовательно, в выборке чаще встречаются значения выпуска продукции ниже средней величины.
По основным производственным фондам имеет место левосторонняя ассиметрия, т.к. EMBED Equation.3 <Ме< Мо. Коэффициент ассиметрии равен -0,21025237, |As| = 0,21025237 (см. табл. 5), т.е. |As|EMBED Equation.30,21. Имеет место незначительная левосторонняя асимметрия. По выпуску продукции имеет место незначительная правосторонняя ассиметрия (|As|EMBED Equation.30,21, As=0,018221872).
Коэффициент вариации по основным производственным фондам равен 17,00026688%, т.к. V?EMBED Equation.333%, совокупность является количественно однородной
по данному признаку. Коэффициент вариации по выпуску продукции равен 18,23226022%, то совокупность является количественно однородной по данному признаку. По основным фондам и выпуску продукции V? не превышает 40%, следовательно, колеблемость незначительная.
Эксцесс по основным производственным фондам равен -0,344943844, т.е. меньше 0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Эксцесс по выпуску продукции равен -0,205332365, т.е. аналогично как в первом признаке.
Задача 3.
а). Степень колеблемости значений признаков относительно их средней величины определяется по значению коэффициента вариации V?. Коэффициент вариации основных фондов составляет примерно 17% (см. табл. 5). В соответствии с принятой оценочной шкалой колеблемости признака, показатель больше 0% и меньше 40%, т.е. колеблемость незначительная. Коэффициент вариации выпуска продукции равен 18,2% (см. табл. 5), т.е. колеблемость значений выпуска продукции относительно своей средней также незначительная.
б). Для нормальных и близких к нормальному распределений коэффициент вариации V? служит индикатором однородности совокупности. И по стоимости основных фондов, и по выпуску продукции коэффициент вариации ниже 33%, т.е. совокупность является количественно однородной по этим двум признакам. Однако по выпуску продукции совокупность является менее однородной, чем по стоимости основных фондов (18,2%>17%). Чем однороднее изучаемая совокупность, тем надежнее полученная средняя EMBED Equation.3 .
в). Сопоставление средних отклонений – квадратического ? и линейного EMBED Equation.3 позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений.
В условиях симметричного и нормального, а также близких к ним распределений между показателями ? и EMBED Equation.3 имеют место равенства
? EMBED Equation.3 1,25EMBED Equation.3, EMBED Equation.3 EMBED Equation.3 0,8?,
поэтому отношение показателей EMBED Equation.3 и ? может служить индикатором устойчивости данных.
По стоимости основных фондов EMBED Equation.3 =1674,166667/2080,832666=0,804566 по выпуску продукции EMBED Equation.3 =1912,166667/2080,832666=0,918943. В обоих случаях неравенство EMBED Equation.3 >0,8 не выполняется, т.е. индивидуальные значения среднегодовой стоимости и выпуска продукции устойчивы и в них нет «аномальных» выбросов, хотя оба признака к этому близки.
г). По значениям показателей EMBED Equation.3 и ? можно определить границы диапазонов рассеяния значений признака относительно средней EMBED Equation.3 , т.е. установить, какая доля значений признака попадает в тот или иной диапазон отклонений от EMBED Equation.3 .
Согласно вероятностной теореме П.Л.Чебышева следует ожидать, что независимо от формы распределения 75% значений признака будут находиться в диапазоне ( EMBED Equation.3 ), а 89% значений - в диапазоне ( EMBED Equation.3 ).
В нормально распределенных и близких к ним рядах вероятностные оценки диапазонов рассеяния значений признака таковы:
68,3% войдет в диапазон ( EMBED Equation.3 );
99,7% появится в диапазон ( EMBED Equation.3 ).
Последнее соотношение известно как правило «трех сигм».
Для выборочной совокупности значения EMBED Equation.3 и ?n рассчитаны в табл. 3 и табл.5 и являются точными, поэтому, основываясь на правиле «трех сигм», можно точно оценить границы всех трех диапазонов рассеяния признака и определить, сколько значений xi попадает в каждый из диапазонов.
Для стоимости основных фондов:
EMBED Equation.3
12240-2116,405032EMBED Equation.3 xi EMBED Equation.312240+2116,405032
10123,594968? xi?14356,405032
EMBED Equation.3
12240-4063,497662? xi?12240+4063,497662
8176,502338? xi?16303,497662
EMBED Equation.3
12240-6095,246493? xi?12240+6095,246493
6144,753507? xi?18335,246493
Для выпуска продукции:
EMBED Equation.3
11412,91667-2524,689472? xi?11412,91667+2524,689472
8888,227198? xi?13937,606142
EMBED Equation.3
11412,91667-4847,403788? xi?11412,91667+4847,403788
6565,512882? xi?16260,320458
EMBED Equation.3
11412,91667-7271,105682? xi?11412,91667+7271,105682
4141,810988? xi?18684,022352
По данным расчетов формируется таблица с конкретными числовыми значениями границ диапазонов (табл. 8).
Таблица 9
Распределение значений признака по диапазонам
рассеяния признака относительно EMBED Equation.3
Где среднегодовая стоимость основных производственных фондов, млн. руб. это – первый признак, а выпуск продукции, млн. руб. – второй.
66,6% исследуемых единиц войдет в диапазон ( EMBED Equation.3 ) по первому признаку и
63,3% по второму;
93,3% попадет в диапазон ( EMBED Equation.3 );
100% появится в диапазоне ( EMBED Equation.3 ).
Полученные процентные отношения близки к эталонным (правилу «трех сигм»), что позволяет сделать вывод о том, что имеет место нормальное распределение или близкий к нему ряд.
Задача 4. Для проведения сравнительной характеристики распределений единиц совокупности необходимо воспользоваться данными табл. 3 и 5.
а) Показатель вариации V? используется и для сравнительной оценки вариации в различных рядах распределений, когда сравнивается вариация разных признаков в одной и той же совокупности. Интенсивность колебаний вариантов основных фондов и выпуска продукции незначительна (см. п. 3а), однако коэффициент вариации по второму признаку на 4,8% выше, т.е. варианты значений выпуска продукции рассеяны больше относительно своего центра (среднего значения), чем варианты значений основных фондов.
б) По стоимости основных фондов, и по выпуску продукции коэффициент вариации V? ниже 33%, т.е. совокупность является качественно однородной по этим двум признакам (см п.3б). Но по первому признаку V? ниже, чем по второму, т.е. расхождения между значениями по стоимости основных фондов меньше, чем по выпуску продукции. Подтверждением может служить, что размах вариации выборки по первому признаку ниже, чем по второму признаку (см. таб. 3 и 5). Можно сделать вывод, что различия в экономических характеристиках предприятий незначительны, выборка сформирована из предприятий с достаточно близкими значениями по каждому из показателей. Размах вариации может служить базой расчета возможных резервов предприятия. Таких резервов больше у выпуска продукции, т.е. предприятия загружены не полностью и могут дать больше при максимальной загруженности.
в). Для оценки надежности (типичности) средней величины EMBED Equation.3 можно воспользоваться значением показателя вариации, V?. Если его значение невелико, то индивидуальные значения признака xi мало отличаются друг от друга, единицы наблюдения количественно однородны и, следовательно, средняя арифметическая величина EMBED Equation.3 является надежной характеристикой данной совокупности. Если же оценка V?. достаточно высока (превышает 40%), т.е. наблюдается значительное расхождение между значениями xi, то средняя EMBED Equation.3 будет ненадежной характеристикой совокупности и ее практическое применение становится проблематичным. По основным фондам и выпуску продукции V? не превышает 40%, т.е. наблюдается значительное расхождение между значениями xi, то средняя EMBED Equation.3 будет ненадежной характеристикой совокупности и ее практическое применение становится проблематичным.
По основным фондам и выпуску продукции V? не превышает 40%, т.е. средняя арифметическая величина EMBED Equation.3 является надежной характеристикой совокупности по каждому признаку, но V? стоимости основных фондов ниже, чем по выпуску продукции, т.е. ее средняя арифметическая величина является более надежной характеристикой.
г). Мода Мо - наиболее часто встречающаяся величина значений признака или та величина, которая соответствует максимальной ординате эмпирической кривой распределения. Для неоднородной совокупности роль центра распределения обычно выполняет медиана Ме. Т.к. среднее значение, мода и медиана каждого из двух признаков не равны между собой, имеет место смещение ряда распределения (асимметрия). Наиболее точным показателем асимметрии распределения является коэффициент асимметрии As. При As>0 имеет место правосторонняя асимметрия при As<0 – левосторонняя. В симметричных распределениях As=0.
Чем больше величина |As|, тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности:
|As|EMBED Equation.30,25 - асимметрия незначительная;
0,25<|As| EMBED Equation.3 0,5 - асимметрия заметная (умеренная);
|As|>0,5 - асимметрия существенная.
Для среднегодовой стоимости основных производственных фондов асимметрия отрицательная и |As| = 0,21025237 (см табл. 5), имеет место незначительная левосторонняя асимметрия, т.е. в распределении чаще встречаются более низкие значения признака. Для выпуска продукции асимметрия больше нуля и |As| =0,018221872, т.е. существует правосторонняя незначительная симметрия, преимущественное появление в распределении более высоких значений признака.
Задача 5. Интервальный ряд распределения предприятий по стоимости основных фондов и гистограмма распределения этого ряда приведены в табл. 7 и на графике 3.
Для наглядного представления интервального ряда используют его графическое изображение в виде гистограммы и куммуляты. Форма гистограммы и ее характеристики несут наглядную информацию о распределении единиц совокупности по изучаемому признаку. Вместе с тем, следует иметь в виду, что при незначительном объеме выборки (n<50) слишком углубленный анализ гистограммы может привести к неверным выводам, поскольку слабо выраженные “горбики и ямы” частот могут быть обусловлены не основными факторами, определяющими распределение единиц по группам, а просто случайными отклонениями вариантов от EMBED Equation.3.
При анализе формы гистограммы прежде всего следует оценить распределение вариантов значений признака по интервалам (группам). Гистограмма имеет одновершинную форму (см граф. 3), есть основания предполагать, что выборка является однородной по данному признаку.
По форме гистограммы можно установить и характер закономерности распределения, т.е. тип функции, описывающей распределение. Так форма гистограммы на графике 3, дает основания предполагать, что распределение эмпирических данных близко к нормальному (наблюдается незначительная асимметрия).
Для интервального ряда (см. табл. 7) значение моды Мо рассчитывается по формуле:
EMBED Equation.3 ,
где: хМо – нижняя граница модального интервала;
h – величина модального интервала;
fMo – частота модального интервала;
fMo-1 – частота интервала, предшествующего модальному;
fMo+1 – частота интервала, следующего за модальным.
Модальный интервал определяется по наибольшей частоте. В качестве модального интервала берется интервал от 10910 млн. руб. до 12590 млн. руб. (см. граф. 3). Тогда мода интервального ряда распределения будет равна:
Мо=9615 + 1750 * (11 – 5/(11 – 5) + (11 – 7)) = 9615+ 1750 *0,6 = 10665
Итак, модальным значением стоимости основных фондов предприятий совокупности является стоимость, равная 10665 млн. руб. Значение моды несгруппированного ряда данных составляет 12677,5 млн. руб. Расхождение в значениях двух мод может быть обусловлено различием методов исчисления, а т. появлением в интервальном вариационном ряду новых неучетных факторов, не зависящих от признака-фактора, положенного в основание группировки.
Анализ генеральной совокупности
Задача 1. Генеральные показатели EMBED Equation.3 рассчитаны с помощью инструмента Описательная статистика и их значения приведены в табл.3. Величина дисперсии генеральной совокупности ?2N, может быть оценена непосредственно по выборочной дисперсии ?2n.
В математической статистике доказано, что при малом числе наблюдений (особенно при n EMBED Equation.3 40-50) для вычисления генеральной дисперсии ?2N по выборочной дисперсии ?2n следует использовать формулу
EMBED Equation.3
Отсюда для стоимости основных фондов и для выпуска продукции поправочный коэффициент EMBED Equation.3 составляет 1,0344. Это расхождение существует, т.к. объем выборки составляет всего 10% (n = 32 – 30). Однако расхождение невелико, что позволяет сделать вывод о репрезентативности выборки.
Для нормального распределения справедливо равенство:
R=6?
В условиях близости распределения единиц генеральной совокупности к нормальному, это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности.
Так по стоимости основных фондов размах вариации RN составляет 12698,430192, в то время как Rn равен 8750. По выпуску продукции RN равен 15148,136832, а Rn – 10500, т.е. предельное значение амплитуды колебаний значений признаков в генеральной совокупности выше, т.к. объем выборки мал, распределение единиц близко к нормальному, но таковым не является, а утверждение R=6? справедливо только для нормального распределения.
Среднеквадратическое отклонение является мерой вариации признаков. Для сравнения степени вариации одноименных признаков в разных совокупностях используется коэффициент вариации.
Таблица 10
Описательные статистики генеральной совокупности
Задача 2. а). Средние ошибки выборки рассчитаны и приведены в табл. 3 (параметр Стандартная ошибка). Для стоимости основных фондов ошибка составляет 386,4009256 млн. руб., а для выпуска продукции 460,9431249 млн. руб. Средняя ошибка выборки находится в обратной зависимости от величины выборки и в прямой от степени варьирования признака, которая характеризуются дисперсией или выборочной долей для альтернативного признака.
б). Средние значения EMBED Equation.3 приведены в табл. 3. Оценки предельных ошибок выборки имеются в табл.3, табл. 4а, табл. 4б. Предельная ошибка выборки EMBED Equation.3 позволяет определить предельные значения показателей генеральной совокупности и их доверительные интервалы. Для генеральной средней предельные значения и доверительные интервалы определяются выражениями:
EMBED Equation.3 ,
EMBED Equation.3
На основе этих данных формируется таблица с абсолютными значениями признаков табл. 10
Таблица 11
Предельные ошибки выборки
и ожидаемые границы для генеральных средних
Таким образом, с вероятностью 0,683 можно утверждать, что средняя стоимость основных фондов предприятий генеральной совокупности колеблется в пределах от 11862,3017674 млн. руб. до 12617,6982326 млн. руб., а средний выпуск продукции – от 10962,3551106 млн. руб. до 11863,4782294 млн. руб.
Аналогично, с вероятностью 0,997 средняя стоимость основных фондоф предприятий генеральной совокупности колеблется в пределах от 11038,357392 млн. руб. до 13441,642608 млн. руб. Средний выпуск продукции с вероятностью 0,997 колеблется в пределах от 9979,460221 млн. руб. до 12846,373119 млн. руб.
В случае генеральной совокупности точно известна только величина ?n (табл. 3), а для средней EMBED Equation.3 рассчитаны лишь предельные ошибки выборки (табл.3, табл.4), поэтому для генеральной совокупности оценки рассеяния значений признака по трем диапазонам являются прогнозными и обычно задаются по правилу «трех сигм» с конкретным числовым значением параметра ?n.
Задача 3. Согласно решению задачи 1 анализа генеральной совокупности расхождение значений показателей ?N2 и ?n2 близко к единице, асимметричность по модулю меньше 0,25 (см. значения табл. 10), что дает основания говорить о незначительной асимметрии. Для оценки расхождений в степени крутизны кривых (при одинаковой силе вариации) применяется коэффициент эксцесса Ek. Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений. Это объясняется тем, что за базу сравнения принята кривая нормального распределения, являющаяся симметричной. Относительно вершины нормальной кривой и определяется выпад вверх или вниз вершины теоретической кривой эмпирического распределения.
И для среднегодовой стоимости основных фондов и для выпуска продукции Ek<0, т.е. вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от xmax до xmin.
Для нормального распределения Ek=0, поэтому чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального. В частности отрицательная величина Ek больше по первому признаку (-0,344943844), чем по второму (-0,205332365), что означает большее преобладание у первого признака крайних значений, причем одновременно и более низких, и более высоких. При этом в центральной части распределения может образоваться «впадина», превращающая распределение в двухвершинное (U– образной формы), что является индикатором неоднородности совокупности. Однако величины коэффициента эксцесса по обоим признакам по модулю довольно малы.
Если распределение единиц выборочной совокупности близко к нормальному, то выборка является репрезентативной (значение показателей ?N2 и ?n2 расходятся незначительно), и при этом коэффициенты AsN, EkN указывают на небольшую или умеренную величину асимметрии и эксцесса соответственно, то есть основание полагать, что распределение единиц генеральной совокупности по изучаемому признаку будет близко к нормальному.