EMBED MSPhotoEd.3 ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы №1
«Автоматизированный априорный анализ статистической совокупности
в среде MS Excel»
Вариант №_14_
Выполнил: ст. III курса 2 потока
Бадретдинова А.Н.
Специальность: Ф и К
№ зач. кн.: 05 ффд 40419
Проверил: к.э.н., доцент
Бакирова Р.Р.
Уфа 2006
Содержание
ПОСТАНОВКА ЗАДАЧИ.
При проведении статистического наблюдения за деятельностью предприятий корпорации получены выборочные данные по 32-м предприятиям, выпускающим однородную продукцию (выборка 10%-ная, механическая), о среднегодовой стоимости основных производственных фондов и о выпуске продукции за год.
В проводимом статистическом исследовании обследованные предприятия выступают как единицы выборочной совокупности, а показатели Среднегодовая стоимость основных производственных фондов и Выпуск продукции – как изучаемые признаки единиц.
Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C35, которые приведены в таблице 1.
Таблица 1
Исходные данные
В процессе исследования совокупности необходимо решить ряд статистических задач для выборочной и генеральной совокупностей.
Статистический анализ выборочной совокупности:
1.Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
2.Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую (EMBED Equation.3), моду (Мо), медиану (Ме), размах вариации (R), дисперсию( EMBED Equation.3 ), средние отклонения – линейное (EMBED Equation.3) и квадратическое (?n), коэффициент вариации (V?), структурный коэффициент асимметрии К.Пирсона (Asп).
3.На основе рассчитанных показателей в предположении, что распределения единиц по обоим признакам близки к нормальному, оценить:
а) степень колеблемости значений признаков в совокупности;
б) степень однородности совокупности по изучаемым признакам;
в) устойчивость индивидуальных значений признаков;
г) количество попаданий индивидуальных значений признаков в диапазоны ( EMBED Equation.3 ), ( EMBED Equation.3 ), ( EMBED Equation.3 ).
4.Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа:
а) вариации признаков;
б) количественной однородности единиц;
в) надежности (типичности) средних значений признаков;
г) симметричности распределений в центральной части ряда.
5.Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить характер (тип) этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных.
Статистический анализ генеральной совокупности:
1.Рассчитать генеральную дисперсию EMBED Equation.3 , генеральное среднее квадратическое отклонение EMBED Equation.3 и ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий.
2.Для изучаемых признаков рассчитать:
а) среднюю ошибку выборки;
б) предельные ошибки выборки для уровней надежности P=0,683, P=0,954, P=0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности.
3.Рассчитать коэффициенты асимметрии As и эксцесса Ek. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
2.ПОРЯДОК ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ
2.1. ПОДГОТОВИТЕЛЬНЫЙ ЭТАП.
На данном этапе мы проделываем следующие обязательные действия, связанные с организацией индивидуальной рабочей среды:
запускаем Excel и подготавливаем персональную папку с рабочим и отчетным файлами;
формируем индивидуальный вариант исходных данных и записываем его в отчетный файл;
проверяем наличие в Excel надстройки Пакет анализа;
проверяем установку форматов чисел на компьютере.
Запуск Excel и подготовка персональной папки студента с рабочим и отчетным файлами
Для выполнения расчетов обобщающих показателей и подготовки отчета по лабораторной работе мы формируем персональную папку с именем ФИО, содержащую два файла: расчетный с именем Лаб1.хls и отчетный с именем Отчет1.doc.
Для создания рабочего файла проделываем следующие действия:
1.Загружаем файл с исходными данными и макетами таблиц по следующему алгоритму:
На рабочем столе активизируем Мой компьютер;
В диалоговом окне выбираем файл Datadisk на «primary» (Е:)\Преподаватели\Кафедра статистики\Априорный анализ\stat_lab.xls.
2.Сохраняем файл с исходными данными в качестве рабочего файла по алгоритму:
Файл > Сохранить как…;
В диалоговом окне Сохранение документа выбираем путь: Datadisk на «primary (Е:)\Статистика\Работы студентов\<Специальности>\<Номер группы>\<Ф.И.О.>;
Сохраняем файл в указанной папке под именем Лаб1.хls.
Для создания отчетного файла проделываем следующие действия:
1.Загружаем файл Формат отчета.doc из директории Datadisk на «primary» (Е:)\Преподаватели\Кафедра статистики\Априорный анализ.
2.Сохраняем файл по алгоритму:
Файл > Сохранить как…;
В диалоговом окне Сохранение документа выбираем путь: Datadisk на «primary (Е:)\Статистика\Работы студентов\<Специальности>\<Номер группы>\<Ф.И.О.>;
Сохраняем файл в указанной папке под именем Отчет1.doc.
Формирование индивидуальных исходных данных и запись их в отчетный файл
Номер варианта исходных данных соответствует номеру компьютера, на котором работает студент.
Для того чтобы сформировать индивидуальные исходные данные, вводим номер варианта в ячейку Е2 созданного рабочего файла Лаб1.хls, в результате чего Excel формирует исходные данные варианта.
Для записи исходных данных варианта в отчетный файл Отчет1.doc копируем сформированную таблицу 1 из рабочего файла в файл Отчет1.doc в выделенное для этой цели место.
Проверка наличия в Excel надстройки ПАКЕТ АНАЛИЗА
Для выполнения лабораторной работы необходимо наличие в Excel программной настройки Пакет Анализа.
В случае если Пакет анализа установлен, то меню Сервис будет содержать пункт подменю Анализ данных. Если же этот пункт в меню Сервис отсутствует, активизируем инструмент Пакет анализа действиями:
Сервис > Надстройки;
В диалоговом окне Надстройки отмечаем пункт Пакет анализа;
ОК.
Установка форматов чисел на компьютере
Перед началом работы следует убедиться, что компьютер настроен на формат дробных чисел и разделителей, применяемый в алгоритмах лабораторной работы, а именно:
дробная часть числа должна отделяться от целой части знаком «запятая» (,);
аргументы функций (разделители списков) должны отделяться знаком «точка с запятой» (;).
Иная настройка форматов чисел на компьютере (например, дробная часть отделяется от целой знаком «точка» (.) или же аргументы функции (разделители списков) перечисляются через запятую) будет приводить к ошибкам при вводе в электронные таблицы Excel формул, указанных в алгоритмах Задания 2.
Установить в компьютере совместимый с текстами алгоритмов формат чисел можно следующим образом:
Пуск > Настройка > Панель управления > Язык и стандарты;
Язык и стандарты > Числа;
В поле Разделитель целой и дробной части ввести символ «,»;
В поле Разделитель элементов списка ввести символ «;».
2.2. ЭТАП ВЫПОЛНЕНИЯ СТАТИСТИЧЕСКИХ РАСЧЕТОВ.
Задание 1
Выявление и удаление из выборки аномальных единиц наблюдения
Первичные данные выборочной совокупности могут содержать аномальные значения изучаемых признаков (см. п. 2 раздела II – «Теоретические основы лабораторной работы»). Задание 1 заключается в их выявлении и исключении из дальнейшего рассмотрения с целью обеспечения устойчивости данных статистического анализа.
Выполнение Задания 1 включает 2 этапа:
1. Построение диаграммы рассеяния изучаемых признаков.
2. Визуальный анализ диаграммы рассеяния, выявление и фиксация аномальных значений признаков и их удаление из первичных данных.
Краткие теоретические сведения
Выявление аномальных значений признака наиболее удобно производить графическим методом. Для визуального анализа разброса единиц совокупности можно использовать различные типы графиков, в том числе точечный график. По расположению точек на точечном графике легко выявить значения признака, которые резко выделяются из общей, однородной массы значений признаков единиц совокупности.
В настоящей лабораторной работе в качестве исходных данных представлены выборочные значения двух признаков - Среднегодовая стоимость основных производственных фондов и Выпуск продукции. Для выявления аномальных значений этих признаков можно построить график для каждого из признаков в отдельности, однако анализ упростится, если использовать диаграмму рассеяния.
Диаграмма рассеяния - это точечный график, осям X и Y которого сопоставлены два изучаемых признака единиц совокупности. В случае, если признаки X и Y являются взаимосвязанными, диаграмму рассеяния принято называть корреляционным полем.
При построении диаграммы рассеяния по оси X следует расположить значения признака Среднегодовая стоимость основных производственных фондов, а по оси Y - соответствующие значения признака Выпуск продукции.
Обнаружение резко выделяющихся наблюдений производится визуально, путем выявления точек, отстоящих от основной массы точек на существенном расстоянии (рис.1).
Каждый "выброс" из основной массы точек означает аномальность единицы наблюдения либо по признаку X, либо по признаку Y. В обоих случаях такие единицы наблюдения (предприятия) подлежат удалению из первичных данных.
Алгоритм выполнения Задания 1
Этап 1. Построение диаграммы рассеяния изучаемых признаков
1. Выделяем мышью оба столбца исходных данных в диапазоне B4:C35.
2. Вставка > Диаграмма > Точечная > Готово.
В результате выполнения этих действий на рабочем листе Excel появляется диаграмма рассеяния (рис.1).
Рисунок 1. Аномальные значения признаковна диаграмме рассеяния.
Этап 2. Визуальный анализ диаграммы рассеяния,
выявление и фиксация аномальных значений признаков,
их удаление из первичных данных
1. Найдем на графике точку, соответствующую аномальному наблюдению. Если таких точек нет, то перейдем к действию 7, если есть - к действиям 2 - 6.
2. Подведём курсор к точке на диаграмме рассеяния, соответствующей аномальному наблюдению. После непродолжительного времени возле точки автоматически появляется надпись, содержащая значения признаков этого наблюдения в формате (X,Y) (рис.2).
Рисунок 2.
Обозначение (470,00;1200,00) означает, что выбранная аномальная точка соответствует наблюдению (предприятию), которое имеет среднегодовую стоимость основных фондов, равную 470,00 млн. руб., и выпуск продукции, равный 1200,00 млн. руб.
3. В исходных данных визуально (либо с помощью поисковых средств Excel) найдем в табл.1 строку, соответствующую выявленной аномальной единице наблюдения (предприятию). Скопируем эту строку в таблице 2.
Таблица 2
Аномальные единицы наблюдения
4. Выделяем мышью всю адресную строку с данными, подлежащими удалению (рис.3).
Рисунок 3.
5.Правка > Удалить.
6.Выполняем действия 1-5 до полного удаления всех аномальных наблюдений.
7.Перемещаем диаграмму рассеяния в область ячеек, начиная с ячейки F4(рис.4).
Рисунок 4.
Задание 2
Оценка описательных статистических параметров
совокупности
Обобщающие статистические показатели совокупности исчисляются на основе анализа вариационных рядов распределения (см. п.3 раздела II – «Теоретические основы лабораторной работы»). Однако пакет Excel позволяет рассчитать многие из этих показателей непосредственно по первичным данным наблюдения, используя инструмент Описательная статистика надстройки Пакет анализа, а также статистические функции инструмента Мастер функций.
Выполнение Задания 2 заключается в автоматизированном решении двух статистических задач:
1. Расчет описательных показателей выборочной и генеральной совокупностей по не сгруппированным выборочным данным с использованием инструментов Описательная статистика и Мастер функций.
2. Оценка средней и предельной ошибок выборки для средней величины признака, а также границ, в которых эта средняя будет находиться в генеральной совокупности при заданных уровнях надежности.
Краткие теоретические сведения
1. Показатели описательной статистики
Описательная (дескриптивная) статистика является инструментом статистического описания данных, представляющих всю наблюдаемую совокупность в целом. Цель описательной статистики – получение сводных (обобщающих) показателей, характеризующих исходную совокупность данных как генеральную (а не как выборку из некоторой другой совокупности большего объема).
Для численной оценки обобщающих показателей совокупности используются так называемые описательные статистики, представляющие собой однозначные функции на множестве наблюдаемых данных, определяющие значения оцениваемых обобщающих показателей совокупности.
Описательные статистики рассчитываются по несгруппированным данным и реализуют точные функциональные зависимости значений показателей от исходных данных (в отличие от приближенных статистических оценок, выводимых с заданным уровнем надежности).
Показатели, вычисляемые с помощью описательных статистик (так называемые описательные параметры), можно разбить на 3 группы - показатели положения вариантов значений признака, вариации признака и особенностей формы его распределения.
1.1. Показатели положения описывают положение в первичном ряде данных тех или иных вариантов значений признака, характеризующих ряд. К ним относятся:
максимальное xmax и минимальное xmin значения признака;
средняя арифметическая величина EMBED Equation.3 (выступающая в качестве статистической оценки математического ожидания M[EMBED Equation.3] средней величины признака);
мода Мо - наиболее часто встречающийся вариант значений признака или тот вариант, который соответствует максимальной ординате эмпирической кривой распределения;
медиана Ме - серединное значение ранжированного ряда вариантов значений признака;
нижний и верхний квартили Q1 и Q3, ограничивающие центральную зону ранжированного ряда, в которую попадают 50% вариантов значений признака: 25% вариантов значений меньших серединного значения Ме и 25% вариантов значений больших Ме
Среди показателей этой группы наиболее часто используются показатели центра распределения - EMBED Equation.3, Mo и Me. При этом EMBED Equation.3 рассчитывается для первичного ряда наблюдаемых данных, Mo и Me - для ранжированного (упорядоченного) ряда.
Для EMBED Equation.3 и Me характерны свойства:
EMBED Equation.3, EMBED Equation.3 (1)
В зависимости от целей статистического исследования в качестве центра распределения выбирается один из показателей EMBED Equation.3, Mo или Me. В случае однородной совокупности (с нормальным или близким к нему распределением единиц) в качестве центра чаще всего используется средняя величина EMBED Equation.3, характеризующая типичный уровень значений признака.
Для неоднородной совокупности (не поддающейся нормальному закону распределения) роль центра распределения обычно выполняет медиана Ме.
1.2. Показатели вариации (колеблемости) признака описывают степень рассеяния вариантов значений признака относительно своего центра EMBED Equation.3 (или Ме). Различают показатели размера и интенсивности вариации. К показателям размера вариации относятся:
размах вариации R = xmax - xmin, устанавливающий предельное значение амплитуды колебаний признака;
межквартильный размах Q3-Q1, определяющий максимальную амплитуду колебаний в центральной зоне ряда (ограниченной квартилями Q1 и Q3);
среднее линейное отклонение EMBED Equation.3, вычисляемое как среднее арифметическое из абсолютных отклонений |xi -EMBED Equation.3|:
EMBED Equation.3 (2)
дисперсия ?2 (или D), рассчитываемая как среднее арифметическое из квадратов отклонений (xi -EMBED Equation.3):
EMBED Equation.3 (3)
среднее квадратическое (стандартное) отклонение ?, вычисляемое как корень квадратный из дисперсии ?2:
EMBED Equation.3 (4)
Интенсивность вариации признака измеряется относительными показателями
V?= EMBED Equation.3 , Vd= EMBED Equation.3 , VR= EMBED Equation.3 , VMe= EMBED Equation.3 .
Показатели R, EMBED Equation.3 и ? являются величинами именованными и выражаются в тех же единицах, что и изучаемый признак. Дисперсия ?2 считается безразмерной величиной. Относительные показатели интенсивности вариации, как правило, измеряются в процентах.
В статистической практике для оценки вариации наиболее широко применяются показатели размера вариации ?2, ? и показатель интенсивности вариации V?.
Показатели ?2, ?, основанные на учете отклонений (xi-EMBED Equation.3) индивидуальных значений признака xi от средней арифметической EMBED Equation.3, являются обобщающими характеристиками различия в значениях признака.
Дисперсия ?2 оценивает средний квадрат отклонений (xi -EMBED Equation.3). Величина ? очень чутко реагирует на вариацию признака (за счет возведения отклонений в квадрат) и органически вписывается в аппарат математической статистики (дисперсионный, корреляционный анализ и др.). На расчете дисперсии основаны многие статистические показатели.
Среднее квадратическое отклонение ? показывает, на сколько в среднем отклоняются индивидуальные значения признака xi от их средней величиныEMBED Equation.3. Размерность отклонения ? совпадает с размерностью самого признака, поэтому этот показатель экономически хорошо интерпретируется. Отклонения, выраженные в ?, принято считать стандартными.
Интенсивность вариации обычно измеряют коэффициентом вариации V? , который выражается в процентах и вычисляется по формуле
EMBED Equation.3 (5)
Величина V? оценивает интенсивность колебаний вариантов относительно их средней величины. Принята следующая оценочная шкала колеблемости признака:
0%<V?40% - колеблемость незначительная;
40%< V?60% - колеблемость средняя (умеренная); (6)
V?>60% - колеблемость значительная.
Для нормальных и близких к нормальному распределений показатель V? служит индикатором однородности совокупности: принято считать, что при выполнимости неравенства
V?33% (7)
совокупность является количественно однородной по данному признаку.
Коэффициент вариации V? часто используется для сравнения колеблемости признаков в различных рядах распределения, когда сравнивается вариация разных признаков в одной и той же совокупности или же вариация одного и того же признака в различных совокупностях, имеющих разные средниеEMBED Equation.3.
1.3. Показатели особенностей формы распределения. Для определения типа закономерности эмпирического распределения оно приближенно описывается подходящим теоретическим (вероятностным) распределением, форму кривой которого называют формой распределения (см. п. 4 раздела II – «Теоретические основы лабораторной работы»). В тех случаях, когда форма распределения анализируется на ее близость к нормальной форме, расхождение между ними оценивается показателями асимметрии и эксцесса.
Показатели асимметрии оценивают смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения.
В симметричном распределении максимальная ордината прямой располагается точно в середине кривой (рис.5), а соответствующие ей характеристики центра распределения совпадают:
EMBED Equation.3=Mo=Me
В случае асимметричного распределения вершина кривой находится не в середине, а сдвинута либо влево, либо вправо (рис.5).
а) правосторонняя асимметрия б) левосторонняя асимметрия
Рисунок 5. Кривые асимметричных распределений
(пунктиром обозначена нормальная кривая).
Если вершина сдвинута влево, то правая часть кривой оказывается длиннее левой (рис. 5а), т.е. имеет место правосторонняя асимметрия, характеризующаяся неравенством
EMBED Equation.3>Me>Mo, (9)
что означает преимущественное появление в распределении более высоких значений признака.
Если же вершина кривой сдвинута вправо и левая часть оказывается длиннее правой, то асимметрия левосторонняя (рис. 5б), для которой справедливо неравенство
EMBED Equation.3<Me<Mo, (10)
означающее, что в распределении чаще встречаются более низкие значения признака.
Чем больше величина расхождения между EMBED Equation.3, Me, Mo, тем более асимметричен ряд. Разности EMBED Equation.3 являются простейшими показателями асимметрии в рядах распределения.
В нормальном и близких к нему распределениях основная масса единиц (почти 70%) располагается в центральной зоне ряда, в диапазоне ( EMBED Equation.3 ). Для оценки асимметричности распределения в этом центральном диапазоне служит коэффициент К.Пирсона:
EMBED Equation.3 . (11)
При правосторонней асимметрии Asп>0, при левосторонней Asп<0. Если Asп=0, вариационный ряд симметричен.
Наиболее точным показателем асимметрии распределения является коэффициент асимметрии As, вычисляемый по формуле
EMBED Equation.3 , (12)
где n – число единиц совокупности. Как и в случае коэффициента Пирсона, при As>0 имеет место правосторонняя асимметрия при As<0 – левосторонняя. В симметричных распределениях As=0.
Чем больше величина |As|, тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности:
|As|EMBED Equation.30,25 - асимметрия незначительная;
0,25<|As| EMBED Equation.3 0,5 - асимметрия заметная (умеренная); (13)
|As|>0,5 - асимметрия существенная.
Поскольку коэффициенты Asп и As являются относительными безразмерными величинами, они часто применяются для сравнительного анализа асимметричности различных рядов распределения.
Показатель эксцесса характеризует крутизну кривой распределения - ее заостренность или пологость по сравнению с нормальной кривой (рис.6).
Для оценки расхождений в степени крутизны кривых (при одинаковой силе вариации) применяется коэффициент эксцесса Ek:
EMBED Equation.3 . (14)
а) островершинное распределение б) плосковершинное распределение
Рис.6. Кривые распределения с ненулевым эксцессом
(пунктиром обозначена нормальная кривая).
Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений. Это объясняется тем, что за базу сравнения принята кривая нормального распределения, являющаяся симметричной. Относительно вершины нормальной кривой и определяется выпад вверх или вниз вершины теоретической кривой эмпирического распределения. При этом:
Если Ek>0, то вершина кривой распределения располагается выше вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная (рис. 6а). Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений близких к средним;
Если Ek<0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной (рис. 6б). Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от xmax до xmin.
Для нормального распределения Ek=0, поэтому чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального. В частности большая отрицательная величина Ek означает преобладание у признака крайних значений, причем одновременно и более низких, и более высоких. При этом в центральной части распределения может образоваться «впадина», превращающая распределение в двухвершинное (U – образной формы), что является индикатором неоднородности совокупности.
2. Оценка ошибок выборки
Применение выборочного метода наблюдения связано с измерением степени достоверности статистических характеристик генеральной совокупности, полученных по результатам выборочного наблюдения. Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности.
Как правило, статистические характеристики выборочной и генеральной совокупностей не совпадают, а отклоняются на некоторую величину ?, которую называют ошибкой выборки (ошибкой репрезентативности). Ошибка выборки – это разность между значением показателя, который был получен по выборке, и генеральным значением этого показателя. Например, разность
EMBED Equation.3= |EMBED Equation.3-EMBED Equation.3|
определяет ошибку репрезентативности для средней величины признака.
Значения признаков единиц выборочной совокупности являются случайными величинами, следовательно, ошибки выборки также случайны и могут принимать для разных выборок одной и той же генеральной совокупности разные значения. Ввиду этого принято вычислять среднюю и предельную ошибки выборки.
Для среднего значения признака средняя ошибка выборки EMBED Equation.3 (ее называют также стандартной ошибкой) выражает среднее квадратическое отклонение ? выборочной средней EMBED Equation.3 от математического ожидания M[EMBED Equation.3] генеральной среднейEMBED Equation.3. Величина ошибки EMBED Equation.3 зависит от объема выборки n и от величины вариации признака ?: чем больше n и меньше ?, тем меньше ошибка EMBED Equation.3.
Предельная ошибка выборки EMBED Equation.3 определяет границы, в пределах которых лежит генеральная средняя EMBED Equation.3. Эти границы задают так называемый доверительный интервал генеральной средней EMBED Equation.3 – случайную область значений, которая с вероятностью P, близкой к 1, гарантированно содержит значение генеральной средней. Эту вероятность называют доверительной вероятностью или уровнем надежности.
Наиболее часто используются уровни надежности P=0,954; P=0,997; P=0,683.
В математической статистике доказано, что предельная ошибка выборки EMBED Equation.3 кратна средней ошибке EMBED Equation.3 с коэффициентом кратности t, зависящим от значения доверительной вероятности P:
EMBED Equation.3=EMBED Equation.3
Величина коэффициента t (называемого также коэффициентом доверия) является нормированным отклонением, которое вычисляется по формуле
t=EMBED Equation.3
и выражается не в натуральных единицах, а в сигмах: 1?, 2?, 3? и т.д.
Значения t подсчитаны для различных уровней надежности P и протабулированы (хранятся в таблицах интегральной функции Лапласа). Для вышеприведеных уровней надежности P коэффициенты доверия t задаются следующим образом:
Например, если t=2, то с вероятностью P=0,954 можно утверждать, что расхождение между выборочной и генеральной средними |EMBED Equation.3-EMBED Equation.3| не превысит двукратной величины средней ошибки выборки:
EMBED Equation.3=|EMBED Equation.3-EMBED Equation.3|EMBED Equation.3EMBED Equation.3
Таким образом, предельная ошибка выборки EMBED Equation.3 позволяет определить предельные значения показателей генеральной совокупности и их доверительные интервалы. Для генеральной средней предельные значения и доверительные интервалы определяются выражениями:
EMBED Equation.3,
EMBED Equation.3 (15)
Что касается величины дисперсии генеральной совокупности ?2N, то она может быть оценена непосредственно по выборочной дисперсии ?2n.
В математической статистике доказано, что при малом числе наблюдений (особенно при nEMBED Equation.340-50) для вычисления генеральной дисперсии ?2N по выборочной дисперсии ?2n следует использовать формулу
EMBED Equation.3 (16)
При достаточно больших n значение поправочного коэффициента EMBED Equation.3 близко к 1 (при n=100 его значение равно 1,101, а при n=500 - 1,002 и т.д.). Поэтому при достаточно больших n можно приближено считать, что обе дисперсии совпадают:
?2N EMBED Equation.3 ?2n.
Алгоритмы выполнения Задания 2
Выполнение задания включает три этапа:
1.Расчет описательных параметров выборочной и генеральной совокупностей с использованием инструмента Описательная статистика.
2.Оценка предельных ошибок выборки для различных уровней надежности в режиме Описательная статистика.
3.Расчет описательных параметров выборочной совокупности с использованием инструмента Мастер функций.
Этап 1. Расчет описательных параметров выборочной и генеральной совокупностей с использованием инструмента Описательная статистика
Алгоритм 1.1. Расчет описательных статистик
1.Сервис > Анализ данных > Описательная статистика > OK (рис.7);
Рисунок 7. Диалоговое окно инструмента Описательная статистика.
2.Входной интервал < вводим ссылку на диапазон ячеек, содержащих значения анализируемого признака (в нашем случае В4:В33,С4:С33).
3.Группирование > по столбцам;
4.Итоговая статистика ? Активизировать;
5.Уровень надежности ? Активизировать;
6.Уровень надежности < 95,4;
7. Выходной интервал < вводим ссылку на ячейку заголовка первого столбца выходной результативной таблицы (в нашем случае А46,С46).
8. OK;
9.При появлении окна с сообщением "Выходной интервал накладывается на имеющиеся данные" > ОК.
В результате указанных действий Excel осуществляет вывод таблицы описательных статистик в заданный диапазон рабочего файла (таблица 3).
Этап 2. Оценка предельных ошибок выборки для различных уровней надежности в режиме Описательная статистика.
Алгоритм 2.1. Расчет предельной ошибки выборки при P=0,683
1.Сервис > Анализ данных > Описательная статистика > OK;
2.Входной интервал < вводим ссылку на диапазон ячеек, содержащих значения анализируемого признака (в нашем случае В4:В33,С4:С33).
3.Итоговая статистика ? Снять флажок;
4.Уровень надежности ? Активизировать;
5.Уровень надежности < 68,3;
6.Выходной интервал < вводим ссылку на ячейку заголовка первого столбца выходной результативной таблицы (в нашем случае А67,С67) для предельной ошибки выборки при P = 0,683;
7.OK;
8.При появлении окна с сообщением "Выходной интервал накладывается на имеющиеся данные" > ОК.
Алгоритм 2.2. Расчет предельной ошибки выборки при P = 0,997
1.Сервис > Анализ данных > Описательная статистика > OK;
2.Входной интервал < вводим ссылку на диапазон ячеек, содержащих значения анализируемого признака (в нашем случае В4:В33,С4:С33).
3.Итоговая статистика – Снять флажок;
4.Уровень надежности – Активизировать;
5.Уровень надежности < 99,7;
6.Выходной интервал < вводим ссылку на ячейку заголовка первого столбца выходной результативной таблицы (в нашем случае А75,С75) для предельной ошибки выборки при P = 0,997;
7.OK;
8. При появлении окна с сообщением "Выходной интервал накладывается на имеющиеся данные" > ОК.
В результате работы алгоритмов 2.1 и 2.2 Excel выводит в соответствующие ячейки таблицы 4 рабочего файла значения предельных ошибок выборки при P = 0,683 и P = 0,997 (таблица 4а и таблица 4б).
Этап 3. Расчет описательных параметров выборочной совокупности с использованием инструмента Мастер функций
Алгоритм 3.1. Расчет выборочного стандартного отклонения ?n
для признака Среднегодовая стоимость основных производственных фондов
1.Установливаем курсор в ячейку В83 для оценки среднего квадратического отклонения первого признака;
2.Вставка > Функция;
3.Статистические > СТАНДОТКЛОНП > ОК;
4.Число 1 < диапазон ячеек, содержащих значения первого признака (в нашем случае В4:В33 таблицы 1 ).
Алгоритм 3.2. Расчет выборочного стандартного отклонения ?n для признака Выпуск продукции
1.Установливаем курсор в ячейку D83 для оценки среднего квадратического отклонения второго признака;
2.Вставка > Функция;
3.Статистические > СТАНДОТКЛОНП > ОК;
4.Число 1 < диапазон ячеек, содержащих значения второго признака (в нашем случае С4:С33 таблицы 1 ).
Алгоритм 3.3. Расчет выборочной дисперсии ?2n для признака Среднегодовая стоимость основных производственных фондов
1.Установливаем курсор в ячейку В84 для оценки выборочной дисперсии первого признака;
2.Вставка > Функция;
3.Статистические > ДИСПР > ОК;
4.Число 1< диапазон ячеек, содержащих значения первого признака (в нашем случае В4:В33 таблицы 1 ).
Алгоритм 3.4. Расчет выборочной дисперсии ?2n по признаку Выпуск продукции
1.Установливаем курсор в ячейку D84 для оценки выборочной дисперсии второго признака;
2.Вставка > Функция;
3.Статистические > ДИСПР > ОК;
4.Число 1< диапазон ячеек, содержащих значения второго признака (в нашем случае С4:С33 таблицы 1 ).
Алгоритм 3.5. Расчет выборочного среднего линейного отклонения EMBED Equation.3 по признаку Среднегодовая стоимость основных производственных фондов
1.Установливаем курсор в ячейку В85 для расчета среднего линейного отклонения первого признака;
2.Вставка > Функция;
3.Статистические > СРОТКЛ > ОК;
4.Число 1< диапазон ячеек, содержащих значения первого признака (в нашем случае В4:В33 таблицы 1 ).
Алгоритм 3.6. Расчет выборочного среднего линейного отклонения EMBED Equation.3
по признаку Выпуск продукции
Устанавливаем курсор в ячейку D85 для расчета среднего линейного отклонения второго признака;
Вставка > Функция;
Статистические > СРОТКЛ > ОК;
Число 1< диапазон ячеек, содержащих значения второго признака ( в нашем случае С4:С33 таблицы 1 ).
Алгоритм 3.7. Расчет коэффициента вариации EMBED Equation.3 по признаку
Среднегодовая стоимость основных производственных фондов
Устанавливаем курсор в ячейку В86 для расчета коэффициента вариации первого признака;
В активизированную ячейку вводим формулу = B83/B48*100.
Алгоритм 3.8. Расчет коэффициента вариации EMBED Equation.3 по признаку
Выпуск продукции
1.Устанавливаем курсор в ячейку D86 для расчета коэффициента вариации второго признака;
2. В активизированную ячейку вводим формулу = D83/D48*100.
Алгоритм 3.9. Расчет выборочного коэффициента асимметрии Пирсона Asп по признаку Среднегодовая стоимость основных производственных фондов
1.Установливаем курсор в ячейку В87 для расчета коэффициента асимметрии первого признака;
2.В активизированную ячейку вводим формулу = (B48-B51)/B83.
Алгоритм 3.10. Расчет выборочного коэффициента асимметрии Пирсона
Asп по признаку Выпуск продукции
Устанавливаем курсор в ячейку D87 для расчета коэффициента асимметрии второго признака;
В активизированную ячейку вводим формулу =(D48-D51)/D83.
В результате работы алгоритмов 3.1 - 3.10 Excel осуществляет вывод значений выборочных параметров ?n, ?2n, EMBED Equation.3 , EMBED Equation.3 и Аsn в соответствующие ячейки рабочего листа ( таблицы 5).
Задание 3
Построение и графическое изображение
интервального вариационного ряда распределения
единиц совокупности по признаку
Среднегодовая стоимость основных производственных фондов
Для того, чтобы выявить структуру совокупности и тип закономерности распределения ее единиц по варьирующему признаку, строят и анализируют интервальный вариационный ряд распределения и его гистограмму (см. п. 3 раздела II – Теоретические основы лабораторной работы).
Выполнение Задания 3 заключается в решении двух статистических задач:
1.Построение интервального ряда распределения единиц выборочной совокупности по признаку. Среднегодовая стоимость основных производственных фондов.
2.Построение гистограммы и кумуляты сформированного интервального ряда.
Краткие теоретические сведения
Структурная группировка – это разделение совокупности единиц по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в качественном и количественном отношении и позволяющие изучить структуру (внутреннее строение) совокупности. Простейшим видом структурной группировки являются ряды распределения – группировки, в которых для характеристики групп применяется лишь один признак – численность группы.
Обычно при построении вариационных рядов распределения ставится цель количественной характеристики вариации. При этом важное значение имеет правильный выбор количества интервалов (групп) k и величины интервалов h. Эти две величины должны выбираться таким образом, чтобы обеспечить выделение групп по принципу количественного сходства и различия единиц совокупности. Сходство единиц – это их количественная однородность в определенных пределах (внутри групп), различие - существенное расхождение значений признака в разных группах. Иными словами, величины k, h должны обеспечивать такое формирование интервалов, при котором переход через границы каждого интервала означал бы переход от одной количественной особенности единиц к другой, т.е. появление у единиц некоторого нового качества.
Правильный выбор границ интервалов важен также в связи с тем, что изменения в расстановке границ могут существенно повлиять на форму кривой распределения и тем самым привести к неправильным выводам о типе закономерности распределения.
В случае однородных совокупностей, помимо надлежащего выбора величин k и h, обычно выдвигаются еще два требованиям к строению интервального ряда. Первое требование – равенство интервалов. Оно обусловлено тем, что в однокачественных совокупностях вариация признака проявляется в сравнительно узких пределах, а распределение его значений носит равномерный характер. Второе требование – отсутствие групп с открытыми интервалами, когда установлена лишь одна из границ крайних групп (это требование способствует точности статистических расчетов).
В условиях компьютерной обработки статистических данных обычно используют те или иные стандартные процедуры группировки по количественным признакам. Один из вариантов такого стандарта дает формула Г. Стерджесса для определения величины интервала:
k = 1+3,322 lg n, (17)
где n – число единиц совокупности. Величина интервала h определяется по формуле
h = EMBED Equation.3 , (18)
где xmax и xmin - соответственно максимальное и минимальное значения изучаемого признака. При дробном значении k берется ближайшее к нему целое.
Построение ряда распределения завершается подсчетом численности единиц в каждой группе – частоты группы. Иногда распределение характеризуют с помощью накопленных частот или же используют частости и накопленные частости (см. п.3 раздела II - Теоретические основы лабораторной работы). Частости обычно применяют для небольших по объему совокупностей. Кроме того, они позволяют сравнивать распределения по одному и тому же признаку в разных по численности совокупностях.
Относительно обобщающих показателей, рассчитываемых для интервального ряда данных, необходимо отметить, что они могут не совпадать с аналогичными показателями для несгруппированных данных, поскольку в расчетные формулы вместо фактических значений признака подставляются центральные значения интервалов. Вычисления будут точными лишь в тех случаях, когда групповые средние арифметические совпадают с центральными значениями интервалов, а это зависит от характера распределения значений признака в интервалах (группах).
Для наглядного представления интервальных рядов распределения используют их графическое изображение в виде гистограммы и кумуляты.
Гистограмма – столбиковая диаграмма, для построения которой на оси абсцисс откладывают отрезки, равные величине интервалов вариационного ряда. На отрезках строят прямоугольники, высота которых в принятом масштабе по оси ординат соответствует частотам (или частостям). Чем большее количество интервалов имеет ряд, тем более зазубренною будет гистограмма, чем меньшее – тем более «гладкой» она выглядит, однако при этом могут скрадываться характерные черты распределения и пропасть некоторые его подробности.
Форма гистограммы и ее характеристики несут наглядную информацию о распределении единиц совокупности по изучаемому признаку. Многие выводы и методы статистики базируются на использовании значений описательных параметров распределения, особенно параметров, характеризующих центр распределения ( EMBED Equation.3 , Mo, Me) и рассеяние значений признака относительно центра ( EMBED Equation.3 , As, Ek). Эти параметры можно не только количественно оценить по гистограмме, но и отобразить их визуально, «увидеть» их. По форме гистограммы можно установить и характер закономерности распределения, т.е. тип функции, описывающей распределение.
При построении графика гистограммы следует иметь в виду, что неудачный выбор масштаба графика приводит к тому, что гистограмма формируется либо в виде островершинной геометрической фигуры, либо плосковершинной, излишне растянутой по оси абсцисс. В обоих случаях в результате анализа формы гистограммы могут быть сделаны неправильные выводы о форме кривой распределения. Предотвратить эти недостатки позволяет правило «золотого сечения», согласно которому основание геометрической фигуры должно относиться к ее высоте как 1:0,62. Для фигуры гистограммы на рис. 8 это правило соблюдается.
Алгоритмы выполнения Задания 3
Выполнение задания осуществляется в три этапа:
1.Построение промежуточной таблицы.
2.Генерация выходной таблицы и графиков.
3.Приведение выходной таблицы и диаграммы к виду, принятому в статистике.
Этап 1. Построение промежуточной таблицы.
Алгоритм 1.1. Расчет нижних границ интервалов
1.Сервис > Анализ данных > Гистограмма > ОК (рис.8);
Рисунок 8.Диалоговое окно инструмента Гистограмма.
2.Входной интервал < вводим ссылку на диапазон ячеек, содержащих значения анализируемого признака (в нашем случае В4:В33).
Внимание !!! Здесь возможен ошибочный захват мышью столбца второго признака. Необходимо проконтролировать правильность задания входных данных!
3. Интервал карманов оставляем незаполненным;
4. Выходной интервал < вводим ссылку на ячейку заголовка первого столбца выходной формируемой таблицы интервального вариационного ряда.(в нашем случае А90).
5.OK;
Алгоритм 1.2. Переход от нижних границ к верхним
1.Выделяем курсором верхнюю левую ячейку таблицы 6 (в нашем случае А91) и нажимаем клавишу [Delete];
2.Вводим в ячейку с именем "Еще" значение хmax первого признака из таблицы 3 Описательные статистики.
Построение промежуточной таблицы с использованием алгоритмов 1.1 – 1.2 приведено ниже (рис.9).
Рисунок 9. Схема перехода от нижних границ интервалов к верхним
Этап 2. Генерация выходной таблицы и графиков
Алгоритм 2.1. Построение выходной таблицы,
столбиковой диаграммы и кумуляты.
Сервис > Анализ данных > Гистограмма > ОК;
Входной интервал < вводим ссылку на диапазон ячеек, содержащих значения анализируемого признака (в нашем случае В4:В33).
Внимание!!! Здесь возможен ошибочный захват мышью столбца второго признака. Необходимо проконтролировать правильность задания входных данных!
3. Интервал карманов < диапазон карманов итоговой промежуточной таблицы 6 с верхними границами А92:А96.
4.Выходной интервал < вводим ссылку на ячейку заголовка первого столбца выходной формируемой таблицы 7 (в нашем случае А101).
5.Интегральный процент - Активизируем;
6.Вывод графика - Активизируем;
7.ОК;
8.При появлении сообщения о наложении данных - ОК.
Построение выходной таблицы с использованием алгоритма 2.1 имеет следующий вид:
Столбиковая диаграмма и кумулята приведены ниже (рис.10):
Рисунок 10.
Этап 3. Приведение выходной таблицы и диаграммы к виду,
принятому в статистике.
Алгоритм 3.1. Преобразование выходной таблицы в результативную.
1.Заменим названия столбцов выходной таблицы 7 таким образом, как показано в таблице 8.
Таблица 8
2.Строки первого столбца приведем к виду «нижняя граница интервала - верхняя граница интервала», учитывая совпадение верхних границ предыдущего интервала с нижней границей последующего интервала;
3.Строку с именем «Еще» выделим мышью и очистим, нажав клавишу [Delete];
4.Добавим и заполним строку с именем «Итого».
В результате указанных действий Excel осуществляет вывод результативной таблицы в заданный диапазон рабочего файла (таблица 7).
Алгоритм 3.2. Преобразование столбиковой диаграммы в гистограмму.
1.Осуществив «захват мышью», перемещаем график, расположив его вслед за табл.7 (адрес ячейки А112).
2. Исключаем зазоры, выполнив следующие действия:
2.1. Нажимаем правую кнопку мыши на одном из столбиков диаграммы.;
2.2. Формат рядов данных>Параметры;
2.3. Ширина зазора>0;
2.4. ОК;
3.Используя "захват мышью" за угол поля графика, устанавливаем соотношение ширины и высоты фигуры гистограммы в пропорции 1: 0,62.
Внимание!!! Здесь возможна ошибочная установка указанной пропорции для размеров поля графика, а не для самой геометрической фигуры гистограммы. Необходимо проконтролировать правильность установки пропорции ширины и высоты фигуры гистограммы.
И так гистограмма и кумулята в ходе проделанных действий выглядят следующим образом (рис11.):
Рисунок 11.
ПРИЛОЖЕНИЕ 3
Расположение макетов результативных таблиц в рабочем файле
персональной папки студента
3. ЗАКЛЮЧИТЕЛЬНЫЙ ЭТАП
Рекомендации
к анализу статистических свойств изучаемой совокупности
и составлению отчета
Ниже изложены рекомендации, которыми следует руководствоваться на заключительном этапе лабораторной работы при анализе полученных обобщающих показателей и подготовке отчета с выводами по результатам работы.
Нумерация пунктов в рекомендациях соответствует нумерации статистических задач из п. 4.1 - Постановка задачи.
Анализ выборочной совокупности
Задача 1. Укажите количество аномальных единиц наблюдения со ссылкой на таблицу.
Ответ: Обнаружение резко выделяющихся наблюдений производится визуально, путем выявления точек, отстоящих от основной массы точек на существенном расстоянии (рис.1, стр.11).
Каждый "выброс" из основной массы точек означает аномальность единицы наблюдения либо по признаку X, либо по признаку Y. В данном случае количество аномальных единиц две (табл.2).
Таблица 2
Аномальные единицы наблюдения
Задача 2. Рассчитанные выборочные показатели представлены в двух таблицах - табл.3 и табл.5. На основе этих таблиц необходимо сформировать единую таблицу значений выборочных показателей, перечисленных в условии Задачи 2, табл.8 с заголовком «Описательные статистики выборочной совокупности».
Ответ:
Задача 3. Для ответа на вопросы 3а) – 3г) следует воспользоваться теоретическими положениями, изложенными в методических указаниях к Заключительному этапу в разделе Анализ обобщающих показателей описательной статистики (пп.1.1, 1.2, 1.4, 1.5).
При ответе на вопрос 3в) в случае обнаружения неустойчивых данных возможные аномалии следует выявить и указать в качестве «кандидатов» на исключение из выборки.
При ответе на вопрос 3г) необходимо сформировать таблицу следующего формата (с конкретными числовыми значениями границ диапазонов):
Таблица 9
Распределение значений признака по диапазонам
рассеяния признака относительно EMBED Equation.3
На основе данных табл.9 определить процентное соотношение рассеяния значений признака по трем диапазонам и сопоставить его с ожидаемым по правилу «трех сигм».
Ответ: 3а) Степень колеблемости признака определяется по значению коэффициента вариации V?, исходя из оценочной шкалы:
0%<V?40% - колеблемость незначительная;
40%< V?60% - колеблемость средняя (умеренная);
V?>60% - колеблемость значительная.
И так в нашем случае:
По первому признаку: 0%< 17,13941964 40%;
По второму признаку: 0%< 21,74952089 40%.
Т.о. исходя из оценочной шкалы можно утверждать, что колеблемость значений признаков в совокупности незначительная.
Показатель V? используется и для сравнительной оценки вариации в различных рядах распределений.
3б) Однородность совокупности для нормального и близких к нормальному распределений устанавливается по следующему условию: Для нормальных и близких к нормальному распределений показатель V? служит индикатором однородности совокупности, т.о. принято считать, что при выполнимости неравенства V?33% совокупность является количественно однородной по данному признаку.
Чем однороднее изучаемая совокупность, тем надежнее полученная средняя EMBED Equation.3.
И так в нашем случае:
По первому признаку: 17,13941964 33%;
По второму признаку: 21,74952089 33%.
Т.о. исходя из неравенств можно утверждать, что совокупности по изучаемым признакам являются количественно однородными.
3в) Сопоставление средних отклонений - квадратического ? и линейного EMBED Equation.3 позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений.
В условиях симметричного и нормального, а также близких к ним распределений между показателями ? и EMBED Equation.3 имеют место равенства ? ?1,25EMBED Equation.3, EMBED Equation.3? 0,8 ?, поэтому отношение показателей EMBED Equation.3 и ? может служить индикатором устойчивости данных: если EMBED Equation.3 > 0,8, то значения признака неустойчивы, в них имеются «аномальные» выбросы. Следовательно, несмотря на визуальное обнаружение и исключение нетипичных единиц наблюдений при выполнении Задания 1, некоторые аномалии в первичных данных продолжают сохраняться. В этом случае их следует выявить (например, поиска значений, выходящих за границы ( EMBED Equation.3 )) и рассматривать в качестве возможных «кандидатов» на исключение из выборки.
И так в нашем случае:
Квадратическое равенство.
По первому признаку: По второму признаку:
? ? 1,25*153,0666667=191,3 ? ?1,25*174,8266667 =218,5
Линейное равенство.
По первому признаку: По второму признаку:
EMBED Equation.3? 0,8*190,247558=152,2 EMBED Equation.3? 0,8*226,9490006= 181,6
Далее смотрим, может ли отношение показателей EMBED Equation.3 и ? служить индикатором устойчивости данных:
По первому признаку: По второму признаку: 152,2 / 191,3 ? 0,8 181,6 / 218,5 ? 0,8
0,8 > 0,8 0,8 > 0,8
Т.к. отношение показателей EMBED Equation.3 и ? не превышает в обоих случаях 0,8, можно утверждать, что значения признака устойчивы, соответственно в них отсутствуют «аномальные выбросы».
3г) По значениям показателей средней EMBED Equation.3 и ? можно определить границы диапазонов рассеяния значений признака относительно средней EMBED Equation.3, т.е. установить, какая доля значений признака попадает в тот или иной диапазон отклонений от EMBED Equation.3.
Согласно вероятностей теореме П.Л.Чебышева, следует ожидать, что независимо от формы распределения 75% значений признака будут находиться в диапазоне ( EMBED Equation.3 ), а 89% значений – в диапазоне ( EMBED Equation.3 ).
В нормально распределенных и близких к ним рядах вероятностные оценки диапазонов рассеяния значений признака таковы:
68,3% войдет в диапазон ( EMBED Equation.3 );
95,4% попадает в диапазон ( EMBED Equation.3 );
99,7% появится в диапазоне ( EMBED Equation.3 );
Это соотношение известно, как правило «трех сигм».
Для выборочной совокупности значения EMBED Equation.3 и ?n рассчитаны (табл.3 и 5) и являются точными, поэтому основываясь на правиле «трех сигм», можно точно оценить границы всех трех диапазонов рассеяния признака и определить, сколько значений xi попадает в каждый из диапазонов.
В случае генеральной совокупности точно известна только величина ?n (табл.3), а для средней EMBED Equation.3 рассчитаны лишь предельные ошибки выборки (табл.3 и 4), поэтому для генеральной совокупности оценки рассеяния значений признака по трем диапазонам являются прогнозными и обычно задаются в виде выше приведенного соотношения с конкретным числовым значением параметра ?n.
И так в нашем случае:
Распределение значений признака по диапазонам
рассеяния признака относительно EMBED Equation.3 Таблица 9
Процентное соотношение рассеяния значений признака по трем диапазонам совпадает с ожидаемым по правилу «трех сигм».
Задача 4. Для ответа на вопросы 4а) – 4г) необходимо воспользоваться табл.8 и сравнить величины показателей для двух признаков.
Отвечая на вопрос 4в), следует обратиться к п. 1.3 раздела Анализ обобщающих показателей описательной статистики методических указаний к Заключительному этапу.
Ответ: 4а) К показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, коэффициент вариации.
Самым элементарным показателем вариации является размах вариации, представляющий собой разность между максимальным и минимальным значениями признака. В нашей задаче размах вариации составляет: по первому признаку - 800 млн. руб., по второму признаку – 960 млн. руб., что на 160 больше. Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейший показатель такого типа – среднее линейное отклонение. В нашей задаче линейное отклонение оставляет: по первому признаку - 153,0666667, по второму признаку – 174,8266667, что на 21,76 больше.
Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины. В нашей задаче дисперсия составляет: по первому признаку - 36194,13333, по второму признаку – 51505,84889, что на 15311,71556 больше.
Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности; оно показывает на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируются.
В нашей задаче квадратическое отклонение оставляет: по первому признаку -190,247558, по второму признаку - 226,9490006, что на 36,7014426 больше.
Интенсивность вариации обычно измеряют коэффициентом вариации. В нашей задаче коэффициент вариации составляет: по первому признаку - 17,13941964, по второму признаку - 21,74952089, что на 4,61010125 больше.
4б) Из табл.8 можно увидеть, что распределение единиц совокупности по двум признакам является количественно однородным.
4в) Для оценки надежности (типичности) средней величины EMBED Equation.3 можно воспользоваться значением показателя вариации V?. Если его значение невелико, то индивидуальные значения признака xi мало отличаются друг от друга, единицы наблюдения количественно однородны и, следовательно, средняя арифметическая величина EMBED Equation.3 является надежной характеристикой данной совокупности. Если же оценка V? достаточно высока (превышает 40%), т.е. наблюдается значительное расхождение между значениями xi, то средняя EMBED Equation.3 будет ненадежной характеристикой совокупности и ее практическое применение становится проблематичным.
Т.к. в нашем случае по первому и второму признакам значения показателя вариации невелики, единицы наблюдения количественно однородны, следует, что средняя арифметическая величина EMBED Equation.3 является надежной характеристикой данной совокупности.
4г) По первому признаку: По второму признаку:
Из фрагмента табл.8 мы видим, что коэффициенты асимметрии обоих признаков не равны 0, а это значит, что они не симметричны. По первому признаку наблюдается левосторонняя асимметрия, по второму – правосторонняя. Т.к. величина |As| обоих признаков < 0,25, то асимметрия по первому и второму признакам считается незначительной;
Задача 5. При построении интервального вариационного ряда распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов необходимо воспользоваться теоретическими положениями, изложенными в методических указаниях к Заключительному этапу в разделе 2 – Анализ типа закономерности распределения.
Для полученного интервального ряда значение моды Мо рассчитывается по формуле:
EMBED Equation.3,
где: хМо – нижняя граница модального интервала;
h – величина модального интервала;
fMo – частота модального интервала;
fMo-1 – частота интервала, предшествующего модальному;
fMo+1 – частота интервала, следующего за модальным.
Полученные значения Мо следует сравнить со значениями моды из табл. 3.
При наличии расхождений между ними объяснить причины этих расхождений.
Ответ:
При анализе формы гистограммы, прежде всего, следует оценить распределение вариантов значений признака по интервалам (группам). Если на гистограмме прослеживаются два – три «горба» частот вариантов, это говорит о том, что значения признака концентрируются сразу в нескольких интервалах, и, следовательно, распределение не является однородным. В нашем же случае гистограмма имеет одновершинную форму, а, следовательно, есть основания предполагать, что выборка является однородной по данному признаку.
Установив пи виду диаграммы, однородность совокупности, для дальнейшего анализа формы распределения используются описательные параметры выборки – показатели центра распределения ( EMBED Equation.3 , Mo , Me.), вариации (?), особенностей формы распределения (Asn, As, Ek ), позволяющие оценить близость эмпирических данных к нормальной форме распределения.
Нормальное распределение является симметричным, и для него выполняются соотношения: EMBED Equation.3 =Mo=Me, As=0, Asn=0, R=6?.Нарушение этих соотношений свидетельствует о наличии асимметрии распределения. Распределение с небольшой или умеренной асимметрией в большинстве случаев по своему типу относится к нормальному. Нарушение равенства Ek=0 говорит о достаточно частом появлении крайних значений признака. Т.о., если гистограмма приблизительно симметрична, ее «хвосты» не очень длинны (не больше 5% вариантов лежат за пределами интервала ( EMBED Equation.3 )), то она представляет распределение, близкое к нормальному.
Коэффициент вариации (?), служит в нашем случае еще одним доказательством того, что совокупность является количественно однородной по данному признаку, т.к. выполняется неравенство: V?33%. А показатели центра распределения ( EMBED Equation.3 , Mo , Me.), имеют следующий вид: EMBED Equation.3 <Me<Mo, это говорит о том, что вершина кривой сдвинута вправо и левая часть оказывается длиннее правой, т.е. левосторонняя асимметрия. Далее рассчитаем прогнозную оценку размаха вариации RN по формуле: R=6?, и получим следующие: R=1161. Из расчетов видно, что прогнозная оценка размаха вариации RN отличается от размаха вариации R рассчитанного в табл.3, следовательно, равенство R=6? не выполняется. Что же касается особенностей формы распределения (Asn, As, Ek ), то следует сказать, что при вычислении (Asn и As) также была обнаружена левосторонняя асимметрия, но т.к. она уступает следующему условию |As|EMBED Equation.3 0,25, будем считать ее незначительной (т.е. близкой к симметричной). Т.к (Ek) вычисляется только для симметричных или близких к ним распределений, что в нашем случае выполняется, в ходе расчетов получим следующее: Ek<0; это говорит нам о том, что вершина кривой распределения располагается ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной (рис. 6б стр.21). Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от xmax до xmin.
Т.к., в нашем случае гистограмма приблизительно симметрична, и ее «хвосты» не очень длинны (это соблюдается условием: не больше 5% вариантов лежат за пределами интервала ( EMBED Equation.3 )), то она представляет распределение, близкое к нормальному.
Рассчитаем моду (Мо) полученного интервального ряда и сравним ее с показателем Мо несгруппированного ряда данных.
Модой (Мо) вариационного ряда называется вариант, которому соответствует наибольшая частота.
Для вычисления моды в интервальном ряду сначала находится модальный интервал, имеющий наибольшую частоту, а значение моды определяется линейной интерполяцией:
EMBED Equation.3
где Мо – мода;
хМо – нижняя граница модального интервала;
h – величина модального интервала;
EMBED Equation.3 – частота модального интервала;
EMBED Equation.3 – частота интервала, предшествующего модальному;
EMBED Equation.3 – частота интервала следующего за модальным.
EMBED Equation.3 млн. руб.
Итак, после вычислений можно сказать следующее, что мода вариационного ряда (Мо =1074) отличается от моды в табл.3 (Мо = 1150) и эти расхождения между ними возникли из-за того, что мода вариационного ряда считалась по сгруппированным данным.
Анализ генеральной совокупности.
Задача 1. Генеральные показатели EMBED Equation.3 рассчитаны с помощью инструмента Описательная статистика и их значения приведены в табл.3. Необходимо сформировать для них отдельную таблицу (табл.10) с заголовком «Описательные статистики генеральной совокупности».
Установить степень расхождения между EMBED Equation.3 можно по формуле (16) раздела Краткие теоретические сведения к Заданию 2.
Прогнозные оценки размаха вариации RN рассчитываются по формуле (24) из п.1.7 раздела Анализ обобщающих показателей описательной статистики методических указаний к Заключительному этапу.
Для каждого признака прогнозное значение RN следует сравнить с Rn.
Ответ:
Что касается величины дисперсии генеральной совокупности EMBED Equation.3 , то она может быть оценена непосредственно по выборочной дисперсии EMBED Equation.3 .
В математической статистике доказано, что при малом числе наблюдений (особенно n 40-50) для вычисления генеральной дисперсии EMBED Equation.3 по выборочной дисперсии EMBED Equation.3 следует использовать формулу: EMBED Equation.3 = EMBED Equation.3 EMBED Equation.3 . При достаточно больших значениях n значение поправочного коэффициента EMBED Equation.3 близко к 1 (при n = 100 его значение равно 1,101, а при n = 500 – 1,002 и т.д.). Поэтому при достаточно больших n можно приближенно считать, что обе дисперсии совпадают: EMBED Equation.3 EMBED Equation.3 .
И так в результате наших расчетов получим следующее:
37442,2069 = EMBED Equation.3 36194,13333
37442,2069 = 37442,2069
Т.о из увиденного можно сказать только одно – расхождений между EMBED Equation.3 и EMBED Equation.3 нет.
Теперь рассчитаем ожидаемый размах вариации признаков RN. Для нормального распределения справедливо равенство R = 6?. В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности. Т.к. ранее нам уже требовался показатель RN и мы его рассчитали для первого признака, рассчитаем теперь для второго, и получим: R = 1385. Следует заметить, что прогнозная оценка размаха вариации RN второго признака, как и первого, отличается от размаха вариации R рассчитанного в табл.3.
Теперь для сравнения RN с Rn для каждого признака нам необходимо рассчитать Rn. После расчетов получим по первому: R= 1142; по второму: R= 1362.
Т.о. можно сказать следующее, что по первому признаку, что по второму RN превышает Rn , но не намного.
Задача 2. Средние ошибки выборки рассчитаны и приведены в табл.3 (параметр Стандартная ошибка). Для ответа на вопрос 2а) их следует выбрать их этой таблицы.
Оценки предельных ошибок выборки имеются в табл.3, табл.4а, табл.4б. На основе этих оценок и формулы (15) необходимо сформировать таблицу 11 следующего формата.
Таблица 11
Предельные ошибки выборки
и ожидаемые границы для генеральных средних
Ответ:
2а) По первому признаку: По второму признаку:
2б) По первому признаку: По второму признаку:
На основе этих оценок и выражений:
EMBED Equation.3,
EMBED Equation.3
Сформируем следующую таблицу:
Таблица 11
Предельные ошибки выборки
и ожидаемые границы для генеральных средних
Задача 3 Для заключения о степени близости распределения единиц генеральной совокупности к нормальной форме следует обратиться к п.2.4 раздела Анализ типа закономерности распределения методических указаний к Заключительному этапу. Значения коэффициентов асимметрии As и эксцесса Ek имеются в табл.10.
Ответ: Если распределение единиц выборочной совокупности близко к нормальному, выборка является репрезентативной (значение показателей EMBED Equation.3 и EMBED Equation.3 расходятся незначительно) и при этом коэффициенты AsN и EkN указывают на небольшую или умеренную величину асимметрии и эксцесса соответственно, то есть основание полагать, что распределение единиц генеральной совокупности по изучаемому признаку будет близко к нормальному.
Исходя из выше приведенных показателей асимметрии, можно сказать, что асимметрия является незначительной, т.к. выполняется следующее условие: |As|EMBED Equation.30,25. Что же касается показателей эксцесса, то следует заметить, что они точно также как и показатели асимметрии имеют кое-какие отклонения ( Ek < 0), но при этом на небольшую величину, т.о. есть основания полагать что распределение единиц генеральной совокупности по изучаемому признаку близко к нормальному.
ЭКОНОМИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ ПРЕДПРИЯТИЙ
1.Типичны ли образующие выборку предприятия по значениям изучаемых экономических показателей?
Построить точечный график – диаграмму рассеяния значений показателей.
Выделить область диаграммы, отражающую группирование предприятий с близкими по значению показателями.
Выявить предприятия с резко выделяющимися характеристиками и исключить их из проводимого статистического исследования вследствие нетипичности (аномальности) этих предприятий для изучаемой совокупности.
Аномальные значения показателей являются предметом отдельного исследования.
Ответ: Из 32 предприятий аномальны 2, такие нетипичные значения показателей могут быть обусловлены воздействием каких – либо сугубо случайных обстоятельств, возникать в результате ошибок наблюдения или же быть объективно присущими наблюдаемому явлению. В любом случае они являются аномальными для совокупности, т.к. нарушают статистическую закономерность изучаемого явления.
Точечный график рассеяния значений показателей:
Область диаграммы, отражающая группирование предприятий с близкими по значению показателями:
Предприятия с резко выделяющимися характеристиками:
2. Каковы наиболее характерные для предприятий значения показателей среднегодовой стоимости основных производственных фондов и выпуска продукции?
Рассчитать среднюю арифметическую значений каждого из показателей, а также среднее квадратическое отклонение.
Установить, какие предприятия входят в диапазон ( EMBED Equation.3 ), включающий предприятия с наиболее характерными значениями показателей.
Ответ: Наиболее характерными для предприятий являются значения показателей среднегодовой стоимости основных производственных фондов входящие в диапазон (920 млн. руб. – 1300 млн. руб.), для выпуска продукции (817 млн. руб. – 1270 млн. руб.).
Средняя арифметическая EMBED Equation.3:
среднегодовой стоимости основных производственных фондов = 1100 млн. руб.
выпуска продукции = 1043,466667 млн. руб.
Среднее квадратическое отклонение EMBED Equation.3 :
среднегодовой стоимости основных производственных фондов =190,247558 млн. руб.;
выпуска продукции = 226,9490006 млн. руб.;
Предприятия, входящие в диапазон ( EMBED Equation.3 ):
3. Насколько сильны различия в экономических характеристиках предприятий выборочной совокупности? Можно ли утверждать, что выборка сформирована из предприятий с достаточно близкими значениями по каждому из показателей.
Рассчитать коэффициенты вариации, используя вычисленные в п.2 значения EMBED Equation.3, EMBED Equation.3 .
Установить (по значению коэффициента вариации), насколько предприятия однородны по изучаемым экономическим характеристикам.
Определить максимальное расхождение в значениях показателей (размах вариации).
Ответ: Различия в экономических характеристиках предприятий выборочной совокупности незначительны, хотя и коэффициент вариации выпуска продукции превышает коэффициент вариации среднегодовой стоимости основных производственных фондов на 4,61010125 %, но в целом не один из них не превышает 33% (что говорит об их однородности). Что же касается выборки, то следует сказать, что в нашем случае она сформирована из предприятий с достаточно равномерными значениями по каждому из показателей.
Коэффициент вариации равен процентному отношению среднего квадратического отклонения к средней арифметической:
EMBED Equation.3
Итак, рассчитаем коэффициент вариации для среднегодовой стоимости основных производственных фондов:
EMBED Equation.3
Теперь для выпуска продукции:
EMBED Equation.3
Однородность предприятий по изучаемым экономическим характеристикам.
Коэффициент вариации используют не только для сравнительной оценки вариации единиц совокупности, но и как характеристику однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%. Следовательно, в обоих случаях можно утверждать, что предприятия однородны. И чем меньше величина коэффициента вариации, тем меньше разброс значений признака вокруг средней, тем более однородна совокупность по составу.
Максимальное расхождение в значениях показателей.
Самым элементарным показателем вариации признака является размах вариации R, представляющий собой разность между максимальным и минимальным значениями признака: R = xmax- xmin. В нашем случае размах вариации среднегодовой стоимости основных производственных фондов:
R = 1510 - 710=800 млн.руб.
Размах вариации выпуска продукции:
R = 1520 - 560=960 млн.руб.
Размах вариации показывает крайние отклонения признака.
4. Какова структура предприятий выборочной совокупности по среднегодовой стоимости основных фондов? Каков удельный вес предприятий с наибольшими, наименьшими и типичными значениями данного показателя? Какие именно это предприятия?
Произвести группировку (построить ряд распределения) предприятий по стоимости основных фондов.
Найти модальный интервал и определить входящие в него предприятия (наиболее типичные).
Установить, какие предприятия входят в группы с наименьшей и наибольшей стоимостью основных фондов.
Определить удельный вес предприятий модального интервала и интервалов с наибольшими и наименьшими значениями показателя.
Ответ: Для того чтобы выявить структуру совокупности, мы построили интервальный вариационный ряд распределения. Данные группировки которого показывают, что у 70% предприятий среднегодовая стоимость основных фондов составляет свыше 1030 млн. руб. Что же касается удельного веса предприятий с наибольшими, наименьшими и типичными значениями данного показателя, то следует выделить следующее: для группы предприятий с наименьшими значениями показателя удельный вес составляет 30,00%, к таким предприятиям относятся №:1,5,23,27,2,8,19,22,32; для группы предприятий с типичными значениями показателя, удельный вес составляет 36,67%, к таким предприятиям относятся №: 3,4,6,7,9,13,14,17,25,26,28; для группы предприятий с наибольшими значениями показателя удельный вес составляет 33,33%, к таким предприятиям относятся №: 10,15,18,20,24,29,30,11,16,21.
Группировка предприятий по стоимости основных фондов.
Модальный интервал и входящие в него предприятия.
Т.к. модальный интервал определяется по наибольшей частоте, а в нашем случае наибольшей частотой является число 11, соответственно модальный интервал:1030 млн. руб. – 1190 млн. руб.
Предприятия, входящие в интервал:
Предприятия, входящие в группы с наименьшей и наибольшей стоимостью основных фондов.
Удельный вес предприятий модального интервала и интервалов с наибольшими и наименьшими значениями показателя.
5. Носит ли распределение предприятий по группам закономерный характер, и какие предприятия (с более высокой или более низкой стоимостью основных фондов) преобладают в совокупности?
Построить гистограмму ряда распределения и визуально установить, имеется ли в распределении определенная закономерность.
В случае, если распределение близко к нормальному, рассчитать показатель асимметрии, по знаку которого определить, доминируют ли в совокупности предприятия с более высокой или с более низкой стоимостью основных фондов.
Ответ: Если распределение эмпирических данных близко к нормальному распределению, а в нашем случае именно так, есть основание предполагать, что распределение предприятий по группам носит вполне закономерный характер. Что же касается предприятий, преобладающих в совокупности, то следует сказать, что таких нет. Это означает, что значения показателя стоимости основных фондов достаточно равномерно рассеяны по всему диапазону от xmax до xmin.
Гистограмма ряда распределения.
По форме распределения гистограммы можно установить характер закономерности распределения, т.е. тип функции, описывающий распределение. Так, сопоставляя форму гистограммы с наложенной на нее кривой нормального распределения, есть основание предположить, что распределение эмпирических данных близко к нормальному (наблюдается незначительная асимметрия).
Показатель асимметрии As = - 0,21025237, но т.к. рассчитанная отрицательная величина считается незначительной, можно с уверенностью сказать, что предприятия с более высокой или с более низкой стоимостью основных фондов в совокупности не доминируют.
6. Каковы ожидаемые средние величины среднегодовой стоимости основных фондов и выпуска продукции на предприятиях корпорации в целом? Какое максимальное расхождение в значениях показателя можно ожидать?
Рассчитать предельную ошибку средней для каждого из показателей.
Определить границы, в которых будут находиться средние значения показателей.
Определить ожидаемый размах вариации показателей.
Ответ: С вероятностью 0,954 можно утверждать, что ожидаемая средняя величина среднегодовой стоимости основных фондов данной корпорации колеблется в пределах от 1036 до 1184 млн. руб.; с вероятностью 0,954 можно утверждать, что ожидаемая средняя величина выпуска продукции данной корпорации колеблется в пределах от 956 до 1131 млн. руб. (при необходимости, возможно определить ожидаемые средние величины среднегодовой стоимости основных фондов и выпуска продукции данной корпорации с другими вероятностями: 0,683,0,997 и т.д.). Что же касается максимального расхождения в значениях показателей, то можно ожидать следующее: по первому показателю расхождение составит 361млн. руб., по второму показателю расхождение составит 425 млн. руб.
Предельная ошибка средней для каждого из показателей.
Средняя ошибка выборки EMBED Equation.3 среднегодовой стоимости основных фондов EMBED Equation.3= 35,32808462, а средняя ошибка выборки EMBED Equation.3 выпуска продукции EMBED Equation.3= 42,14337142.
В математической статистике доказано, что предельная ошибка выборки EMBED Equation.3 кратна средней ошибке EMBED Equation.3с коэффициентом кратности t, зависящим от значения доверительной вероятности Р:
EMBED Equation.3= t•EMBED Equation.3.
Границы, в которых находятся средние значения показателей.
Предельная ошибка выборки EMBED Equation.3 позволяет определить предельные значения показателей генеральной совокупности и их доверительные интервалы. Для генеральной средней предельные значения и доверительные интервалы определяются выражениями:
EMBED Equation.3,
EMBED Equation.3 .
Ожидаемый размах вариации показателей.
Рассчитаем ожидаемый размах вариации показателей RN. Для нормального распределения справедливо равенство R = 6?. В условиях близости распределения к нормальному это соотношение используется для прогнозной оценки размаха вариации показателя в генеральной совокупности. Итак, ожидаемый размах вариации RN среднегодовой стоимости основных фондов R =1161, а ожидаемый размах вариации RN выпуска продукции R =1385.