ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ

О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности в среде MS Excel»
Вариант №21








Москва, 2006 г.
ПОСТАНОВКА ЗАДАЧИ
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Таблица 1
Исходные данные
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности
Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (EMBED Equation.3), моду (Мо), медиану (Ме), размах вариации (R), дисперсию ( EMBED Equation.3 ), средние отклонения – линейное (EMBED Equation.3) и квадратическое (уn), коэффициент вариации (Vу), структурный коэффициент асимметрии К.Пирсона (Asп).
На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ).
Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности
Рассчитать генеральную дисперсию EMBED Equation.3 , генеральное среднее квадратическое отклонение EMBED Equation.3 и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.

ОТЧЕТНОСТЬ ПО РАБОТЕ
Результативные таблицы:
Таблица 2
Аномальные единицы наблюдения
Таблица 3
Описательные статистики
Таблица 4а
Предельные ошибки выборки
Таблица 4б
Предельные ошибки выборки
Таблица 5
Выборочные показатели вариации и асимметрии
Таблица 6
Таблица 7
Интервальный ряд распределения предприятий по стоимости основных производственных фондов
EMBED Excel.Chart.8 \s
Статистический анализ выборочной совокупности
1.Выявление аномальных единиц наблюдения
Любая изучаемая совокупность может содержать единицы наблюдения, значения признаков которых резко выделяются из основной массы значений. Такие нетипичные значения признаков (выбросы) могут быть обусловлены воздействием каких-либо сугубо случайных обстоятельств, возникать в результате ошибок наблюдения или же быть объективно присущими наблюдаемому явлению. В любом случае они являются аномальными для совокупности, так как нарушают статистическую закономерность изучаемого явления. Следовательно, статистическое изучение совокупности без предварительного выявления и анализа возможных аномальных наблюдений может не только исказить значения обобщающих показателей (средней, дисперсии, среднего квадратического отклонения и др.), но и привести к серьезным ошибкам в выводах о статистических свойствах совокупности, сделанных на основе полученных оценок показателей.
Для выявления и исключения аномальных единиц наблюдения построена диаграмма рассеяния изучаемых признаков. Исключенные аномальные единицы из первичных данных, их две, представлены в таб.2.
2.Анализ вариационных рядов распределения
Построение и статистическое изучение вариационных рядов распределения выполняется на этапе априорного анализа совокупности. При этом для каждого изучаемого признака строится вариационный ряд распределения единиц совокупности по данному признаку, и рассчитываются обобщающие статистические характеристики ряда – средняя EMBED Equation.3, мода Мо, медиана Ме, показатели вариации признака R, EMBED Equation.3, уn, EMBED Equation.3 , Vу и особенностей формы распределения As, Ek. На их основе оцениваются устойчивость индивидуальных значений признака xi, надежность их среднего значения EMBED Equation.3, степень вариации признака, устанавливается характер (тип) закономерности изменения частот в распределении и другие статистические свойства распределений, которые описаны ниже.
Рассчитанные выборочные показатели представлены в таб.3 и таб.5. Для удобочитаемости этих таблиц и упрощения дальнейшего анализа, полученных показателей выборки сформирована таб.8 «Описательные статистики выборочной совокупности».
Таблица 8
Описательные статистики выборочной совокупности
Характеристика полученных показателей
В сумме по 30 предприятиям среднегодовая стоимость ОПФ составляет 31200 млн. руб., а выпуск продукции 29347,50 млн. руб. При этом среднее значение среднегодовой стоимости ОПФ составляет 1040 млн. руб., а среднее значение выпуска продукции - 978,25 млн. руб. Среднее квадратическое отклонение выборочной средней от математического ожидания генеральной средней по среднегодовой стоимости ОПФ составляет 33,12 млн. руб., по выпуску продукции - 39,51 млн.руб. Среднегодовая стоимость ОПФ, находящаяся в середине ряда составляет 1051,25 млн. руб. Выпуск продукции, находящийся в середине ряда составляет 971,25 млн. руб. Таким образом, из 30 исследованных предприятий 15 предприятий имеют среднегодовую стоимость ОПФ менее 1051,25 млн. руб. и выпуск продукции менее 971,25 млн. руб., а 15 предприятий - более 1051,25 млн. руб. и более 971,25 млн. руб. по признакам соответственно. Наиболее часто встречающаяся стоимость ОПФ составляет 1077,50 млн. руб., а выпуск продукции - 975,00 млн. руб. Минимальное значение среднегодовой стоимости ОПФ – 665,00 млн. руб., максимальное – 1415,00 млн. руб. Размах вариации 750,00 млн. руб. Минимальное значение выпуска продукции - 525,00 млн. руб., максимальное - 1425,00 млн.руб. Размах вариации 900,00 млн.руб. В среднем значения среднегодовой стоимости ОПФ для каждого из предприятий в выборке отклоняются от средней стоимости ОПФ по всем изученным предприятиям на 178,36 млн.руб. Средний квадрат таких отклонений (дисперсия) равен 31811,25 млн.руб. В среднем выпуск продукции для каждого из предприятий в выборке отклоняются от среднего значения выпуска продукции на 212,76 млн.руб. Средний квадрат таких отклонений (дисперсия) равен 45268,81 млн.руб.
В предположении, что распределение единиц по изучаемым признакам близко к нормальному, сделаем еще ряд важных выводов.
Коэффициент вариации для признака «Среднегодовая стоимость ОПФ, млн.руб.» составляет 17,15%, для признака «Выпуск продукции, млн.руб.» - 21,75%, что говорит о незначительной колеблемости характеризуемых признаков, т.к. выполняется условие EMBED Equation.3 . Так же этот показатель служит индикатором однородности изучаемой совокупности, т.к. выполняется условие EMBED Equation.3 , делаем вывод, что изучаемая совокупность является однородной и по признаку «Среднегодовая стоимость основных производственных фондов, млн.руб.», и по признаку «Выпуск продукции, млн. руб.».
Сопоставление средних отклонений – квадратического и линейного позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений.
Для среднегодовой стоимости ОПФ EMBED Equation.3
Для выпуска продукции EMBED Equation.3
Условие EMBED Equation.3 не выполняется, значит «аномальных» вариантов значений в совокупности нет. Эти аномальные значения признаков мы удалили из выбранной совокупности на 1 этапе, посредством построения диаграммы рассеяния. Делаем вывод, что индивидуальные значения изучаемых двух признаков устойчивы.
Для распределения значений признаков по диапазонам рассеяния признаков относительно средних значений признаков построим таблицы 9а и 9б.
Таблица 9а
Распределение значений признака по диапазонам рассеяния признака «Среднегодовая стоимость ОПФ, млн. руб.» относительно EMBED Equation.3

Таблица 9б
Распределение значений признака по диапазонам рассеяния признака «Выпуск продукции, млн. руб.» относительно EMBED Equation.3
По полученным % отношениям рассеяния признаков трудно сделать вывод о нормальности распределения вариантов признаков. Анализ распределения на близость к нормальному продолжим немного позднее. (представлен ниже).
Размах вариации для признака «Среднегодовая стоимость ОПФ, млн. руб.» составляет 750,00 млн. руб., для признака «Выпуск продукции, млн. руб.» - 900,00 млн. руб.. Это говорит о том, что признак «Среднегодовая стоимость ОПФ, млн.руб.» более устойчив, чем признак «Выпуск продукции, млн.руб.».
Коэффициент вариации для признака «Среднегодовая стоимость ОПФ, млн.руб.» составляет 17,15%, для признака «Выпуск продукции, млн.руб.» - 21,75%, это говорит о том, что варианты признака «Среднегодовая стоимость основных производственных фондов, млн.руб.» более однородны, чем варианты признака «Выпуск продукции, млн.руб.». Чем однороднее изучаемая совокупность, тем надежнее полученное среднее значение признака. Следовательно, среднее значение среднегодовой стоимости ОПФ более надежно, чем среднее значение выпуска продукции.
Проанализируем формы распределения в выборке.
Коэффициент асимметрии Пирсона в центральном диапазоне для среднегодовой стоимости ОПФ AsП=-0,21<0, следовательно, асимметрия левосторонняя.
Коэффициент асимметрии Пирсона в центральном диапазоне для выпуска продукции AsП=0,02>0, следовательно, асимметрия правосторонняя.
EMBED Equation.3 =1040,00<Ме=1051,25<Мо=1077,50 – для среднегодовой стоимости ОПФ.
EMBED Equation.3 =978,25>Ме=971,25<Мо=975,00 – для выпуска продукции.
Делаем вывод, что в среднегодовой стоимости ОПФ наиболее часто встречаются более низкие значения признака, а в выпуске продукции наиболее часто встречаются более высокие значения признака.
EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 - для среднегодовой стоимости ОПФ
EMBED Equation.3 EMBED Equation.3 - для выпуска продукции.
Чем больше величина расхождения между средней, модой, медианой, тем более асимметричен ряд. Следовательно, рад вариантов среднегодовой стоимости ОПФ более асимметричен.
Перейдем к анализу построенного интервального ряда (таб.7) и гистограммы.
Гистограмма имеет ярко выраженную одновершинную форму, следовательно, выборка является однородной по данному признаку.
Коэффициент асимметрии для среднегодовой стоимости ОПФ
As=-0.15<0, в центральном диапазоне AsП=-0,21<0, следовательно, имеет место левосторонняя асимметрия. Коэффициент эксцесса для среднегодовой стоимости ОПФ Ек=-0,34<0, следовательно, распределение плосковершинное. Это означает что значения признака «Среднегодовая стоимость ОПФ, млн. руб.» не концентрируются в центральной части ряда, а рассеяны по всему диапазону от минимального значения до максимального значения, причем в распределении чаще всего встречаются более низкие значения признака.
Коэффициент асимметрии для выпуска продукции As=0,04>0, в центральном диапазоне AsП=0,02>0, следовательно, имеет место правосторонняя асимметрия. Коэффициент эксцесса выпуска продукции Ек=-0,21 <0, следовательно, распределение плосковершинное. Это означает, что значения признака «Выпуск продукции, млн. руб.» не концентрируются в центральной части ряда, а рассеяны по всему диапазону от минимального значения до максимального значения, причем в распределении чаще всего встречаются более высокие значения признака.
Так как EMBED Equation.3 для среднегодовой стоимости ОПФ, то асимметрия для данного признака умеренная. Так как EMBED Equation.3 для выпуска продукции, то асимметрия для данного признака незначительная.
Делаем вывод, что, так как для признака “Среднегодовая стоимость ОПФ, млн.руб.” построенная гистограмма приблизительно симметрична, а ее “хвосты” не очень длинны и асимметрия для данного признака умеренная, она представляет собой распределение, близкое к нормальному. Для выпуска продукции асимметрия незначительна, поэтому данное распределение принимаем близким нормальному.
Максимально допустимая ошибка наблюдения EMBED Equation.3 для среднегодовой стоимости ОПФ 535,08 млн.руб., для выпуска продукции 638,28 млн.руб.. Результаты наблюдений для которых EMBED Equation.3 отбрасывают. Мы результаты по обоим признакам, которые попадают под это условие отбросили на этапе анализа аномальных наблюдений.
Рассчитаем значение моды для полученного интервального ряда.
EMBED Equation.3
EMBED Equation.3
Расхождение значений моды для дискретного и для интервального ряда 1077,50 для дискретного и 1055,00 для интервального) говорит о том, что ряд ассиметричен.
Статистический анализ генеральной совокупности
Рассчитанные показатели для анализа генеральной совокупности представлены в таб.3. Для удобочитаемости этой таблицы и упрощения дальнейшего анализа полученных показателей сформирована таб.10 «Описательные статистики генеральной совокупности».
Таблица 10
Описательные статистики генеральной совокупности
Характеристика полученных показателей
Оценим дисперсию генеральной совокупности по выборочной дисперсии EMBED Equation.3
EMBED Equation.3 - для среднегодовой стоимости ОПФ
EMBED Equation.3 - для выпуска продукции
Исчисленные по формуле и средствами Excel дисперсии генеральной совокупности для изученных признаков соответственно совпадают.
EMBED Equation.3 и EMBED Equation.3 для среднегодовой стоимости ОПФ расходятся незначительно (ошибка репрезентативности 1096,93 или 3,3%).
EMBED Equation.3 и EMBED Equation.3 для выпуска продукции расходятся незначительно (ошибка репрезентативности 1560,99 или 3,3%).
Прогнозную оценку размаха вариации рассчитаем по формуле для нормального распределения: EMBED Equation.3
EMBED Equation.3 - для среднегодовой стоимости ОПФ
EMBED Equation.3 - для выпуска продукции
Итак, размах вариации в генеральной совокупности для среднегодовой стоимости ОПФ на 1088,46-750=338,46 млн. руб. больше, чем в выборке; размах вариации в генеральной совокупности выпуска продукции на 1298,40-900=398,40 млн. руб. больше, чем в выборке по этому признаку. Т.е. ошибка репрезентативности для показателя размах вариации для признака «Среднегодовая стоимость ОПФ, млн.руб.» составляет 338,46 млн.руб., для признака «Выпуск продукции, млн.руб.» 398,40 млн.руб.
По таблице 3 видно, что среднее квадратическое отклонение выборочной средней от математического ожидания генеральной средней (стандартная ошибка) по среднегодовой стоимости ОПФ составляет 33,12 млн. руб., по выпуску продукции - 39,51 млн. руб.
Для анализа ошибок выборки и вычисления ожидаемых границ для генеральных средних сформируем таблицу 11 на основе исчисленных данных предельных ошибок с заданными уровнями вероятностей, представленных в таблицах 3, 4а и 4б.


Таблица 11
Предельные ошибки выборки и ожидаемые границы для генеральных средних
Для генеральной средней предельные значения и их доверительные интервалы определяются выражениями EMBED Equation.3 ; EMBED Equation.3 .
Итак, для среднегодовой стоимости ОПФ можно утверждать, что среднее значение этого признака в генеральной совокупности с доверительной вероятностью 68,3% будет заключено в пределах от 1006,28 до 1073,72; с доверительной вероятностью 95,4% - в пределах от 970,95 до 1109,05; с доверительной вероятностью 99,7% - в пределах от 932,71 до 1147,29. Для выпуска продукции можно утверждать, что среднее значение этого признака в генеральной совокупности с доверительной вероятностью 68,3% будет заключено в пределах от 938,02 до 1018,48; с доверительной вероятностью 95,4% - в пределах от 895,88 до 1060,62; с доверительной вероятностью 99,7% - в пределах от 850,26 до 1106,24.
Так как выборка по обоим признакам является репрезентативной (значения показателей EMBED Equation.3 и EMBED Equation.3 расходятся незначительно), распределения единиц выборочных совокупностей близки к нормальному, коэффициенты АsN и EkN указывают на умеренную асимметрию для признака “Среднегодовая стоимость ОПФ, млн. руб.” и незначительную асимметрию для признака “Выпуск продукции, млн. руб.” (анализ этих показателей приведен выше), то можно сделать вывод, что распределение единиц генеральной совокупности по двум изученным признакам близко к нормальной форме.
Экономическое содержание задачи статистического исследования
В исходных данных, полученных при проведении статистического наблюдения за деятельностью предприятий по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год из 32-х 2-а предприятия имеют аномальные для выборки значения вариантов. Эти аномальные значения приведены в таб2 – для предприятия №30 среднегодовая стоимость ОПФ составляет 1415,00 млн. руб. при выпуске продукции в 375 млн. руб., для предприятия № 11 среднегодовая стоимость ОПФ составляет 440 млн. руб. при выпуске продукции 1125 млн. руб. Такие данные нетипичны для всей выборки в целом.
Наиболее характерные для предприятий значения среднегодовой стоимости ОПФ 1040,00 млн. руб. и выпуска продукции 978,25 млн. руб.
Среднее квадратическое отклонение выборочной средней от математического ожидания генеральной средней по среднегодовой стоимости ОПФ составляет 33,12 млн. руб., по выпуску продукции - 39,51 млн. руб.
Предприятия с наиболее характерными значениями среднегодовой стоимости ОПФ, а их 20, входящими в диапазон EMBED Equation.3 EMBED Equation.3 , представлены в таблице 12.
Таблица 12
Предприятия с наиболее характерными значениями среднегодовой стоимости ОПФ
Предприятия с наиболее характерными значениями выпуска продукции, а их 19, входящими в диапазон EMBED Equation.3 EMBED Equation.3 , представлены в таблице 13.
Таблица 13
Предприятия с наиболее характерными значениями выпуска продукции
Предприятия с наиболее характерными значениями двух исследуемых признаков - среднегодовой стоимости ОПФ и выпуска продукции, а их 16, входящими в диапазон EMBED Equation.3 EMBED Equation.3 и EMBED Equation.3 соответственно, представлены в таблице 14.
Таблица 14
Предприятия с наиболее характерными значениями двух признаков - среднегодовой стоимости ОПФ и выпуска продукции
Коэффициент вариации для среднегодовой стоимости ОПФ составляет 17,15%, для выпуска продукции - 21,75%, что говорит о незначительной колеблемости характеризуемых величин, т.к. выполняется условие EMBED Equation.3 . Так же этот показатель служит индикатором однородности изучаемой совокупности, т.к. выполняется условие EMBED Equation.3 , делаем вывод, что изучаемая совокупность является однородной и по среднегодовой стоимости основных производственных фондов и по выпуску продукции. Причем варианты признака «Среднегодовая стоимость основных производственных фондов, млн. руб.» более однородны, чем варианты признака «Выпуск продукции, млн. руб.». Чем однороднее изучаемая совокупность, тем надежнее полученное среднее значение признака. Следовательно, среднее значение среднегодовой стоимости ОПФ более надежно, чем среднее значение выпуска продукции.
Размах вариации, то есть максимальное расхождение в значениях показателей, для среднегодовой стоимости ОПФ составляет 750,00 млн. руб., для выпуска продукции - 900,00 млн. руб.. Это говорит о том, что среднегодовая стоимость ОПФ более устойчива, чем выпуск продукции. Максимальные расхождения в показателях предприятий выборочной совокупности относительно небольшие. Таким образом, выборка сформирована из предприятий с достаточно близкими значениями показателей по каждому признаку.
В таблице 7 «Интервальный ряд распределения предприятий по стоимости основных производственных фондов» приведена группировка по данному признаку. По таблице 7 построим таблицу 15 , в которой отразим удельный вес предприятий с наименьшими, наибольшими и типичными значениями признака.
Таблица 15
Удельный вес предприятий с наибольшими, наименьшими и типичными значениями среднегодовой стоимости ОПФ

Итак, предприятия с номерами 1, 5, 23, 27 имеют наименьшую среднегодовую стоимость ОПФ, и удельный вес этих предприятий в выборке составляет 13,3%; предприятия с номерами 3, 4, 6, 7, 9, 13, 14, 17, 25, 26, 28 имеют типичную для исследуемого ряда среднегодовую стоимость ОПФ, удельный вес этих предприятий 36,7%; предприятия с номерами 12, 16, 21 имеют наибольшую среднегодовую стоимость ОПФ, а удельный вес таких предприятий 10%. Следовательно, в исследованном ряде распределения наибольший удельный вес занимают предприятия с типичными значениями среднегодовой стоимости ОПФ, модальный интервал 965-1115 млн. руб.
Коэффициент асимметрии для среднегодовой стоимости ОПФ
As=-0,15 <0, а в центральном диапазоне AsП=-0,21 <0, следовательно, имеет место левосторонняя асимметрия, причем в распределении чаще всего встречаются более низкие значения признака. Доля более низких значений составляет 13,3%, а доля наиболее высоких 10%. Это также видно визуально по построенной гистограмме ряда распределения, приведенной выше в результативных таблицах.
Для анализа ожидаемых средних величин среднегодовой стоимости ОПФ и выпуска продукции на предприятиях корпорации в целом построена таблица 11, приведенная выше. Анализируя данные этой таблицы можно сказать, что средняя среднегодовая стоимость ОПФ по всем предприятиям корпорации в целом с доверительной вероятностью 68,3% будет заключена в пределах от 1006,28 до 1073,72; с доверительной вероятностью 95,4% - в пределах от 970,95 до 1109,05; с доверительной вероятностью 99,7% - в пределах от 932,71 до 1147,29. Средний выпуск продукции на предприятиях корпорации в целом с доверительной вероятностью 68,3% будет заключен в пределах от 938,02 до 1018,48; с доверительной вероятностью 95,4% - в пределах от 895,88 до 1060,62; с доверительной вероятностью 99,7% - в пределах от 850,26 до 1106,24.
Ожидаемое максимальное расхождение между максимальным и минимальным значениями среднегодовой стоимости ОПФ на предприятиях корпорации в целом составляет 1088,46 млн. руб. А ожидаемое максимальное расхождение между максимальным и минимальным значениями выпуска продукции на предприятиях корпорации в целом составляет 1298,40 млн. руб.