Министерство образования и науки Российской Федерации
Федеральное агентство по образованию
ГОУ ВПО
Всероссийский заочный финансово-экономический институт
СТАТИСТИКА
Методические рекомендации к выполнению статистических
расчётов курсовых, контрольных и выпускных квалификационных работ
Часть I. Комплексное использование статистических методов
при проведении анализа данных
Для студентов всех специальностей
(первое и второе высшее образование)
МОСКВА 2007
«Методические рекомендации к выполнению статистических расчётов курсовых, контрольных и выпускных квалификационных работ Часть I. Комплексное использование методов при проведении статистического анализа данных» разработали:
доктор физико-математических наук, профессор Кожевникова Г.П.,
кандидат технических наук, доцент Голикова А.В.,
кандидат экономических наук, профессор. Каманина А.М.,
ст. преподаватель Лысенко С.Н.,
ст. преподаватель Дмитриева И.А.
Ответственный редактор Г.П. Кожевникова
«Методические рекомендации к выполнению статистических расчётов курсовых, контрольных и выпускных квалификационных работ Часть I. Комплексное использование методов при проведении статистического анализа данных» одобрены на заседании Научно-методического совета ВЗФЭИ
Проректор, председатель НМС, профессор Д.М. Дайитбегов
Статистика. Методические рекомендации к выполнению статистических расчётов курсовых, контрольных и выпускных квалификационных работ. Часть I. Комплексное использование методов при проведении статистического анализа данных. Для студентов всех специальностей (первое и второе высшее образование). – М.: ВЗФЭИ, 2007. – с.
Таблица 1
Исходные данные
Задание 1
По исходным данным (табл.1) необходимо выполнить следующее:
Построить статистический ряд распределения банков по Объему кредитных вложений, образовав четыре группы с равными интервалами.
Графическим методом и путем расчётов определить значения моды и медианы полученного ряда распределения.
Рассчитать характеристики ряда распределения: среднюю арифметическую, среднее квадратическое отклонение, коэффициент вариации.
Вычислить среднюю арифметическую по исходным данным (табл. 1.1), сравнить её с аналогичным показателем, рассчитанным в п. 3 для интервального ряда распределения. Объяснить причину их расхождения.
Сделать выводы по результатам выполнения Задания 1.
Выполнение Задания 1
Целью выполнения данного Задания является изучение состава и структуры выборочной совокупности банков путем построения и анализа статистического ряда распределения банков по признаку Объем кредитных вложений.
1.Построение интервального ряда распределения банков по объему кредитных вложений
Для построения интервального вариационного ряда, характеризующего распределение банков по объему кредитных вложений, необходимо вычислить величину и границы интервалов ряда.
При построении ряда с равными интервалами величина интервала h определяется по формуле
EMBED Equation.3 , (1)
где EMBED Equation.3 – наибольшее и наименьшее значения признака в исследуемой совокупности, k- число групп интервального ряда.
Число групп k задается в условии задания или рассчитывается по формуле Г.Стерджесса
k=1+3,322 lg n, (2)
где n - число единиц совокупности.
Определение величины интервала по формуле (1) при заданных k = 4, xmax = 240 млн руб., xmin = 40 млн руб.:
EMBED Equation.3
При h = 50 млн руб. границы интервалов ряда распределения имеют следующий вид (табл. 2):
Таблица 2
Для построения интервального ряда необходимо подсчитать число банков, входящих в каждую группу (частоты групп). При этом возникает вопрос, в какую группу включать единицы совокупности, у которых значения признака выступают одновременно и верхней, и нижней границами смежных интервалов (для демонстрационного примера – это 90, 140, 190 млн руб.). Отнесение таких единиц к одной из двух смежных групп рекомендуется осуществлять по принципу полуоткрытого интервала [ ). Т.к. при этом верхние границы интервалов не принадлежат данным интервалам, то соответствующие им единицы совокупности включаются не в данную группу, а в следующую. В последний интервал включаются и нижняя, и верхняя границы.
Процесс группировки единиц совокупности по признаку Объем кредитных вложений представлен во вспомогательной (разработочной) таблице 3 (графа 4 этой таблицы необходима для построения аналитической группировки в Задании 2).
Таблица 3
Разработочная таблица для построения интервального ряда распределения и аналитической группировки
На основе групповых итоговых строк «Всего» табл. 3 формируется итоговая таблица 4, представляющая интервальный ряд распределения банков по объему кредитных вложений.
Таблица 4
Распределение банков по объему кредитных вложений
Помимо частот групп в абсолютном выражении в анализе интервальных рядов используются ещё три характеристики ряда, приведенные в графах 4 - 6 табл. 1.4. Это частоты групп в относительном выражении, накопленные (кумулятивные) частоты Sj, получаемые путем последовательного суммирования частот всех предшествующих (j-1) интервалов, и накопленные частости, рассчитываемые по формуле EMBED Equation.3 .
Таблица 5
Структура банков по объему кредитных вложений
Вывод. Анализ интервального ряда распределения изучаемой совокупности банков показывает, что распределение банков по объему кредитных вложений не является равномерным: преобладают банки с кредитными вложениями от 140 млн руб. до 190 млн руб. (это 12 банков, доля которых составляет 40%); 30% банков имеют кредитные вложения менее 140 млн руб., а 70% – менее 190 млн руб.
1.2. Нахождение моды и медианы полученного интервального ряда распределения графическим методом и путем расчетов
Мода и медиана являются структурными средними величинами, характеризующими (наряду со средней арифметической) центр распределения единиц совокупности по изучаемому признаку.
Мода Мо для дискретного ряда – это значение признака, наиболее часто встречающееся у единиц исследуемой совокупности Если в дискретном ряду все варианты встречаются одинаково часто, то в этом случае мода отсутствует. Могут быть распределения, где не один, а два (или более) варианта имеют наибольшие частоты. Тогда ряд имеет две (или более) моды, распределение является бимодальным (или многомодальным),что указывает на качественную неоднородность совокупности по изучаемому признаку. . В интервальном вариационном ряду модой приближенно считается центральное значение модального интервала (имеющего наибольшую частоту). Более точно моду можно определить графическим методом по гистограмме ряда (рис.1).
EMBED Excel.Chart.8 \s
Рис. 1 Определение моды графическим методом
Конкретное значение моды для интервального ряда рассчитывается по формуле:
EMBED Equation.3 (3)
где хМo – нижняя граница модального интервала,
h –величина модального интервала,
fMo – частота модального интервала,
fMo-1 – частота интервала, предшествующего модальному,
fMo+1 – частота интервала, следующего за модальным.
Согласно табл.1.3 модальным интервалом построенного ряда является интервал 140 – 190 млн. руб., так как его частота максимальна (f3 = 12).
Расчет моды по формуле (3):
EMBED Equation.3
Вывод. Для рассматриваемой совокупности банков наиболее распространенный объем кредитных вложений характеризуется средней величиной 173,33 млн руб.
Медиана Ме – это значение признака, приходящееся на середину ранжированного ряда. По обе стороны от медианы находится одинаковое количество единиц совокупности.
Медиану можно определить графическим методом по кумулятивной кривой (рис. 2). Кумулята строится по накопленным частотам (табл. 5, графа 5).
EMBED Excel.Chart.8 \s
Рис. 2. Определение медианы графическим методом
Конкретное значение медианы для интервального ряда рассчитывается по формуле:
EMBED Equation.3, (4)
где хМе– нижняя граница медианного интервала,
h – величина медианного интервала,
EMBED Equation.3– сумма всех частот,
fМе – частота медианного интервала,
SMе-1 – кумулятивная (накопленная) частота интервала, предшествующего медианному.
Для расчета медианы необходимо, прежде всего, определить медианный интервал, для чего используются накопленные частоты (или частости) из табл. 5 (графа 5). Так как медиана делит численность ряда пополам, она будет располагаться в том интервале, где накопленная частота впервые равна полусумме всех частот EMBED Equation.3 или превышает ее (т.е. все предшествующие накопленные частоты меньше этой величины).
В демонстрационном примере медианным интервалом является интервал 140 – 190 млн. руб., так как именно в этом интервале накопленная частота Sj = 21 впервые превышает величину, равную половине численности единиц совокупности ( EMBED Equation.3 = EMBED Equation.3 ).
Расчет значения медианы по формуле (4):
EMBED Equation.3
Вывод. В рассматриваемой совокупности банков половина банков имеют в среднем объем кредитных вложений не более 165 млн руб., а другая половина – не менее 165 млн руб.
3. Расчет характеристик ряда распределения
Для расчета характеристик ряда распределения EMBED Equation.3 , ?, ?2, V? на основе табл. 5 строится вспомогательная таблица 6 ( EMBED Equation.3 – середина j-го интервала).
Таблица 6
Расчетная таблица для нахождения характеристик ряда распределения
Расчет средней арифметической взвешенной:
EMBED Equation.3 (5)
Расчет среднего квадратического отклонения:
EMBED Equation.3 (6)
Расчет дисперсии:
?2 =47,16992=2225,00
Расчет коэффициента вариации:
EMBED Equation.3 (7)
Вывод. Анализ полученных значений показателей EMBED Equation.3 и ? говорит о том, что средний объем кредитных вложений банков составляет 165 млн руб., отклонение от среднего объема в ту или иную сторону составляет в среднем 47,17 млн руб. (или 29,5%), наиболее характерные значения объема кредитных вложений находятся в пределах от 112,83 млн руб. до 207,17 млн руб. (диапазон EMBED Equation.3 ).
Значение V? = 29,5% не превышает 33%, следовательно, вариация кредитных вложений в исследуемой совокупности банков незначительна и совокупность по данному признаку качественно однородна. Расхождение между значениями EMBED Equation.3 , Мо и Ме незначительно ( EMBED Equation.3 =160млн руб., Мо=173,33млн руб., Ме=165млн руб.), что подтверждает вывод об однородности совокупности банков. Таким образом, найденное среднее значение объема кредитных вложений банков (160 млн руб.) является типичной, надежной характеристикой исследуемой совокупности банков.
4.Вычисление средней арифметической по исходным данным
Для расчета применяется формула средней арифметической простой:
EMBED Equation.3, (8)
Причина расхождения средних величин, рассчитанных по формулам (8) и (5), заключается в том, что по формуле (8) средняя определяется по фактическим значениям исследуемого признака для всех 30-ти банков, а по формуле (5) средняя вычисляется для интервального ряда, когда в качестве значений признака берутся середины интервалов EMBED Equation.3 и, следовательно, значение средней будет менее точным (за исключением случая равномерного распределения значений признака внутри каждой группы).
Задание 2
По исходным данным табл. 1 с использованием результатов выполнения Задания 1 необходимо выполнить следующее:
Установить наличие и характер корреляционной связи между признаками Объем кредитных вложений и Сумма прибыли, образовав по каждому признаку четыре группы с равными интервалами, используя методы:
а) аналитической группировки;
б) корреляционной таблицы.
Оценить тесноту корреляционной связи, используя коэффициент детерминации и эмпирическое корреляционное отношение.
Сделать выводы по результатам выполнения Задания 2.
Выполнение Задания 2
Целью выполнения данного Задания является выявление наличия корреляционной связи между факторным и результативным признаками, установление направления связи и оценка ее тесноты.
Факторный и результативный признаки либо задаются в условии задания, либо определяются путем проведения предварительного теоретического анализа. Лишь после того, как выяснена экономическая сущность явления и определены факторный и результативный признаки, приступают к проведению корреляционного анализа данных.
По условию Задания 2 факторным является признак Объем кредитных вложений (X), результативным – признак Сумма прибыли (Y).
1. Установление наличия и характера связи между признаками Объем кредитных вложений и Сумма прибыли методами аналитической группировки и корреляционной таблицы
1а. Применение метода аналитической группировки
При использовании метода аналитической группировки строится интервальный ряд распределения единиц совокупности по факторному признаку Х и для каждой j-ой группы ряда определяется среднегрупповое значение EMBED Equation.3 результативного признака Y. Если с ростом значений фактора Х от группы к группе средние значения EMBED Equation.3 систематически возрастают (или убывают), между признаками X и Y имеет место корреляционная связь.
Используя разработочную таблицу 3, строим аналитическую группировку, характеризующую зависимость между факторным признаком Х – Объем кредитных вложений и результативным признаком Y – Сумма прибыли. Макет аналитической таблицы имеет следующий вид (табл. 7):
Таблица 7
Зависимость суммы прибыли банков от объема кредитных вложений
Групповые средние значения EMBED Equation.3 получаем из таблицы 3 (графа 4), основываясь на итоговых строках «Всего». Построенную аналитическую группировку представляет табл. 8.
Таблица 8
Зависимость суммы прибыли банков от объема кредитных вложений
Вывод. Анализ данных табл. 8 показывает, что с увеличением объема кредитных вложений от группы к группе систематически возрастает и средняя прибыль по каждой группе банков, что свидетельствует о наличии прямой корреляционной связи между исследуемыми признаками.
1б. Применение метода корреляционной таблицы.
Корреляционная таблица представляет собой комбинацию двух рядов распределения. Строки таблицы соответствуют группировке единиц совокупности по факторному признаку Х, а графы – группировке единиц по результативному признаку Y. На пересечении j-ой строки и k-ой графы указывается число единиц совокупности, входящих в j-ый интервал по факторному признаку и в k-ый интервал по результативному признаку. Концентрация частот около диагонали построенной таблицы свидетельствует о наличии корреляционной связи между признаками. Связь прямая, если частоты располагаются по диагонали, идущей от левого верхнего угла к правому нижнему. Расположение частот по диагонали от правого верхнего угла к левому нижнему говорит об обратной связи.
Для построения корреляционной таблицы необходимо знать величины и границы интервалов по двум признакам X и Y. Величина интервала и границы интервалов для факторного признака Х – Объем кредитных вложений известны из табл. 8. Для результативного признака Y – Сумма прибыли величина интервала определяется по формуле (1) при k = 4, уmax = 90,2 млн руб., уmin = 6,2 млн руб.:
EMBED Equation.3
Границы интервалов ряда распределения результативного признака Y имеют следующий вид (табл. 9):
Таблица 9
Подсчитывая с использованием принципа полуоткрытого интервала [ ) число банков, входящих в каждую группу (частоты групп), получаем интервальный ряд распределения результативного признака (табл. 10).
Таблица 10
Распределение банков по сумме прибыли
Используя группировки по факторному и результативному признакам, строим корреляционную таблицу (табл. 11).
Таблица 11
Корреляционная таблица зависимости суммы прибыли банков
от объема кредитных вложений
Вывод. Анализ данных табл. 11 показывает, что распределение частот групп произошло вдоль диагонали, идущей из левого верхнего угла в правый нижний угол таблицы. Это свидетельствует о наличии прямой корреляционной связи между объемом кредитных вложений и суммой прибыли банков.
2. Измерение тесноты корреляционной связи с использованием коэффициента детерминации и эмпирического корреляционного отношения
Для измерения тесноты связи между факторным и результативным признаками рассчитывают специальные показатели – эмпирический коэффициент детерминации EMBED Equation.3 и эмпирическое корреляционное отношение EMBED Equation.3.
Эмпирический коэффициент детерминации EMBED Equation.3 оценивает, насколько вариация результативного признака Y объясняется вариацией фактора Х (остальная часть вариации Y объясняется вариацией прочих факторов). Показатель EMBED Equation.3 рассчитывается как доля межгрупповой дисперсии в общей дисперсии по формуле
EMBED Equation.3, (9)
где EMBED Equation.3 – общая дисперсия признака Y,
EMBED Equation.3 – межгрупповая (факторная) дисперсия признака Y.
Значения показателя EMBED Equation.3 изменяются в пределах EMBED Equation.3 . При отсутствии корреляционной связи между признаками Х и Y имеет место равенство EMBED Equation.3 =0, а при наличии функциональной связи между ними - равенствоEMBED Equation.3 =1.
Общая дисперсия EMBED Equation.3 характеризует вариацию результативного признака, сложившуюся под влиянием всех действующих на Y факторов (систематических и случайных). Этот показатель вычисляется по формуле
EMBED Equation.3, (10)
где yi – индивидуальные значения результативного признака;
EMBED Equation.3 – общая средняя значений результативного признака;
n – число единиц совокупности.
Общая средняя EMBED Equation.3 вычисляется как средняя арифметическая простая по всем единицам совокупности:
EMBED Equation.3 (11)
или как средняя взвешенная по частоте групп интервального ряда:
EMBED Equation.3 (12)
Для вычисления EMBED Equation.3 удобно использовать формулу (11), т.к. в табл. 8 (графы 3 и 4 итоговой строки) имеются значения числителя и знаменателя формулы.
Расчет EMBED Equation.3 по формуле (11):
EMBED Equation.3
Для расчета общей дисперсии EMBED Equation.3 применяется вспомогательная таблица 12.
Таблица 12
Вспомогательная таблица для расчета общей дисперсии
Расчет общей дисперсии по формуле (10):
EMBED Equation.3
Общая дисперсия может быть также рассчитана по формуле
EMBED Equation.3,
где EMBED Equation.3 – средняя из квадратов значений результативного признака,
EMBED Equation.3 – квадрат средней величины значений результативного признака.
Для демонстрационного примера
EMBED Equation.3
EMBED Equation.3
Тогда
EMBED Equation.3
Межгрупповая дисперсия EMBED Equation.3 измеряет систематическую вариацию результативного признака, обусловленную влиянием признака-фактора Х (по которому произведена группировка). Воздействие фактора Х на результативный признак Y проявляется в отклонении групповых средних EMBED Equation.3 от общей средней EMBED Equation.3 . Показатель EMBED Equation.3 вычисляется по формуле
EMBED Equation.3, (13)
где EMBED Equation.3 –групповые средние,
EMBED Equation.3 – общая средняя,
EMBED Equation.3 –число единиц в j-ой группе,
k – число групп.
Для расчета межгрупповой дисперсии EMBED Equation.3 строится вспомогательная таблица 13 При этом используются групповые средние значения EMBED Equation.3 из табл. 8 (графа 5).
Таблица 13
Вспомогательная таблица для расчета межгрупповой дисперсии
Расчет межгрупповой дисперсии EMBED Equation.3 по формуле (11):
EMBED Equation.3
Расчет эмпирического коэффициента детерминации EMBED Equation.3 по формуле (9):
EMBED Equation.3 или 75,1%
Вывод. 75,1% вариации суммы прибыли банков обусловлено вариацией объема кредитных вложений, а 24,9% – влиянием прочих неучтенных факторов.
Эмпирическое корреляционное отношение EMBED Equation.3 оценивает тесноту связи между факторным и результативным признаками и вычисляется по формуле
EMBED Equation.3 (14)
Значение показателя изменяются в пределах EMBED Equation.3. Чем ближе значение EMBED Equation.3 к 1, тем теснее связь между признаками. Для качественной оценки тесноты связи на основе EMBED Equation.3 служит шкала Чэддока (табл. 14):
Таблица 14
Шкала Чэддока
Расчет эмпирического корреляционного отношения EMBED Equation.3 по формуле (14):
EMBED Equation.3 или 86,6%
Вывод. Согласно шкале Чэддока связь между объемом кредитных вложений и суммой прибыли банков является тесной.
Задание 3
По результатам выполнения Задания 1 с вероятностью 0,954 необходимо определить:
ошибку выборки средней величины объема кредитных вложений банков и границы, в которых будет находиться генеральная средняя.
ошибку выборки доли банков с объемом кредитных вложений 175 млн руб. и выше, а также границы, в которых будет находиться генеральная доля.
необходимый объем выборки при заданной предельной ошибке выборки, равной 10 млн руб.
Выполнение Задания 3
Целью выполнения данного Задания является определение для генеральной совокупности коммерческих банков региона границ, в которых будут находиться величина среднего объема кредитных вложений банков и доля банков с объемом кредитных вложений не менее 175 млн руб.
1. Определение ошибки выборки для среднего объема кредитных вложений банков и границ, в которых будет находиться генеральная средняя
Применение выборочного метода наблюдения всегда связано с установлением степени достоверности оценок показателей генеральной совокупности, полученных на основе значений показателей выборочной совокупности. Достоверность этих оценок зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности. Как правило, генеральные и выборочные характеристики не совпадают, а отклоняются на некоторую величину ?, которую называют ошибкой выборки (ошибкой репрезентативности).
Значения признаков единиц, отобранных из генеральной совокупности в выборочную, всегда случайны, поэтому и статистические характеристики выборки случайны, следовательно, и ошибки выборки также случайны. Ввиду этого принято вычислять два вида ошибок - среднюю EMBED Equation.3 и предельную EMBED Equation.3 .
Средняя ошибка выборки EMBED Equation.3 - это среднее квадратическое отклонение всех возможных значений выборочной средней от генеральной средней, т.е. от своего математического ожидания M[ EMBED Equation.3 ].
Величина средней ошибки выборки рассчитывается дифференцированно (по различным формулам) в зависимости от вида и способа отбора единиц из генеральной совокупности в выборочную.
Для собственно-случайной и механической выборки с бесповторным способом отбора средняя ошибка EMBED Equation.3 выборочной средней EMBED Equation.3 определяется по формуле
EMBED Equation.3 , (15)
где EMBED Equation.3 – общая дисперсия выборочных значений признаков,
N – число единиц в генеральной совокупности,
n – число единиц в выборочной совокупности.
Предельная ошибка выборки EMBED Equation.3 определяет границы, в пределах которых будет находиться генеральная средняя:
EMBED Equation.3 ,
EMBED Equation.3 , (16)
где EMBED Equation.3 – выборочная средняя,
EMBED Equation.3 – генеральная средняя.
Границы задают доверительный интервал генеральной средней, т.е. случайную область значений, которая с вероятностью Р гарантированно содержит значение генеральной средней. Эту вероятность Р называют доверительной вероятностью или уровнем надёжности.
В экономических исследованиях чаще всего используются доверительные вероятности Р= 0.954, Р= 0.997, реже Р= 0,683.
В математической статистике доказано, что предельная ошибка выборки ? кратна средней ошибке µ с коэффициентом кратности t (называемым также коэффициентом доверия), который зависит от значения доверительной вероятности Р. Для предельной ошибки выборочной средней EMBED Equation.3 это теоретическое положение выражается формулой
EMBED Equation.3 (17)
Значения t вычислены заранее для различных доверительных вероятностей Р и протабулированы (таблицы функции Лапласа Ф). Для наиболее часто используемых уровней надежности Р значения t задаются следующим образом (табл. 15):
Таблица 15
По условию демонстрационного примера выборочная совокупность насчитывает 30 банков, выборка 20% механическая, следовательно, генеральная совокупность включает 150 банков. Выборочная средняя EMBED Equation.3 , дисперсия EMBED Equation.3 определены в Задании 1 (п. 3). Значения параметров, необходимых для решения задачи, представлены в табл. 16:
Таблица 16
Расчет средней ошибки выборки по формуле (15):
EMBED Equation.3 ,
Расчет предельной ошибки выборки по формуле (17):
EMBED Equation.3
Определение по формуле (16) доверительного интервала для генеральной средней:
160-15,406 EMBED Equation.3 160+15,406,
144,594 млн руб. EMBED Equation.3 175,406 млн руб.
Вывод. На основании проведенного выборочного обследования коммерческих банков региона с вероятностью 0,954 можно утверждать, что для генеральной совокупности банков средний объем кредитных вложений банка находится в пределах от 144,59 млн руб. до 175,41 млн руб.
2. Определение ошибки выборки для доли банков с объемом кредитных вложений 175млн руб. и выше, а также границ, в которых будет находиться генеральная доля
Доля единиц выборочной совокупности, обладающих тем или иным заданным свойством, выражается формулой
EMBED Equation.3 , (18)
где m – число единиц совокупности, обладающих заданным свойством;
n – общее число единиц в совокупности.
Для собственно-случайной и механической выборки с бесповторным способом отбора предельная ошибка выборки EMBED Equation.3 доли единиц, обладающих заданным свойством, рассчитывается по формуле
EMBED Equation.3 , (19)
где w – доля единиц совокупности, обладающих заданным свойством;
(1-w) – доля единиц совокупности, не обладающих заданным свойством,
N – число единиц в генеральной совокупности,
n– число единиц в выборочной совокупности.
Предельная ошибка выборки EMBED Equation.3 определяет границы, в пределах которых будет находиться генеральная доля р единиц, обладающих заданным свойством:
EMBED Equation.3 (20)
По условию Задания 3 исследуемым свойством является равенство или превышение объема кредитных вложений банка величины 175 млн руб.
Число банков с заданным свойством определяется из табл. 3 (графа 3):
m=11
Расчет выборочной доли по формуле (18):
EMBED Equation.3
Расчет по формуле (19) предельной ошибки выборки для доли:
EMBED Equation.3
Определение по формуле (20) доверительного интервала генеральной доли:
EMBED Equation.3
0,21 EMBED Equation.3 0,524
или
21% EMBED Equation.3 52,4%
Вывод. С вероятностью 0,954 можно утверждать, что в генеральной совокупности банков доля банков с объемом кредитных вложений 175 млн руб. и выше будет находиться в пределах от 21% до 52,4%.
3. Определение необходимого объема выборки с заданным значением допустимой предельной ошибки выборки, равной 10 млн руб.
Для собственно-случайной и механической выборки с бесповторным способом отбора необходимый объем выборки для средней количественного признака вычисляется по формуле
EMBED Equation.3 (21)
По условию демонстрационного примера ошибка выборки EMBED Equation.3 не должна превышать 10 млн руб. Параметры t, N и EMBED Equation.3 известны из решений предыдущих задач.
Расчет необходимой численности выборки по формуле (21):
EMBED Equation.3
Вывод. Для того, чтобы обеспечить для среднего объема кредитных вложений банков предельную ошибку выборки, равную 10 млн руб., необходимо из 150 банков, составляющих генеральную совокупность, отобрать в выборочную совокупность 56 банков.
Раздел II
Выполнение и оформления контрольной работы № 16
Имеются следующие выборочные данные о деятельности коммерческих банков за год (выборка 5%-ная механическая):
Таблица 1
Исходные данные
Цель статистического исследования - анализ совокупности банков по признакам Пассивы и Работающие активы, включая:
изучение структуры совокупности по признаку Пассивы;
выявление наличия корреляционной связи между признаками Пассивами и Работающие активы банков, установление направления связи и оценка её тесноты;
применение выборочного метода для определения статистических характеристик генеральной совокупности банков.
Задание 1
По исходным данным (табл. 1) необходимо выполнить следующее:
Построить статистический ряд распределения фирм по величине пассивов, образовав шесть групп с равными интервалами.
Графическим методом и путем расчетов определить значения моды и медианы полученного ряда распределения.
Рассчитать характеристики ряда распределения: среднюю арифметическую, среднее квадратическое отклонение, коэффициент вариации.
Вычислить среднюю арифметическую по исходным данным (табл. 1), сравнить её с аналогичным показателем, рассчитанным в п. 3 для интервального ряда распределения. Объяснить причину их расхождения.
Сделать выводы по результатам выполнения Задания 1.
Выполнение Задания 1
Целью выполнения данного Задания является изучение состава и структуры выборочной совокупности банков путем построения и анализа статистического ряда распределения фирм по величине Пассивов банков.
1. Построение интервального ряда распределения банков по среднесписочной численности менеджеров
Для построения интервального ряда распределения определяем величину интервала h по формуле:
EMBED Equation.3 ,
где EMBED Equation.3 –наибольшее и наименьшее значения признака в исследуемой совокупности, k - число групп интервального ряда.
При заданных k = 6, xmax = 36 млрд. руб. и xmin = 6 млрд. руб.
h = 36-6/6= 5 млрд.руб.
При h = 5 чел. границы интервалов ряда распределения имеют следующий вид (табл. 2):
Таблица 2
Определяем число банков, входящих в каждую группу, используя принцип полуоткрытого интервала [ ), согласно которому банки со значениями признаков, которые служат одновременно верхними и нижними границами смежных интервалов (11,0, 16,0, 21,0, 26,0 и 31,0 млрд. руб.), будем относить ко второму из смежных интервалов.
Для определения числа банков в каждой группе строим разработочную таблицу 3 (данные графы 4 потребуются при выполнении Задания 2).
Таблица 3
Разработочная таблица для построения интервального ряда распределения и аналитической группировки
На основе групповых итоговых строк «Всего» табл. 3 формируем итоговую таблицу 4, представляющую интервальный ряд распределения банков по пассивам.
Таблица 4
Распределение фирм по среднесписочной численности менеджеров
Приведем еще три характеристики полученного ряда распределения - частоты групп в относительном выражении, накопленные (кумулятивные) частоты Sj, получаемые путем последовательного суммирования частот всех предшествующих (j-1) интервалов, и накопленные частости, рассчитываемые по формуле EMBED Equation.3 .
Таблица 5
Структура банков по пассивам
Вывод. Анализ интервального ряда распределения изучаемой совокупности банков показывает, что распределение банков по величине пассивов: преобладают банки с величиной пассива от 16,0 млрд. руб. до 21,0 млрд. руб. (это 12 банков, доля которых составляет 40%); самую меленькую величину пассивов имеет группа банков 31,0 - 36,0 млрд. руб., которая включает 1 банк, что составляет по 3% от общего числа банков.
2. Нахождение моды и медианы полученного интервального ряда распределения графическим методом и путем расчетов
Для определения моды графическим методом строим по данным табл. 4 (графы 2 и 3) гистограмму распределения фирм по изучаемому признаку.
EMBED MSGraph.Chart.8 \s
Рис. 1. Определение моды графическим методом
Расчет конкретного значения моды для интервального ряда распределения производится по формуле:
EMBED Equation.3
где хМo – нижняя граница модального интервала,
h – величина модального интервала,
fMo – частота модального интервала,
fMo-1 – частота интервала, предшествующего модальному,
fMo+1 – частота интервала, следующего за модальным.
Согласно табл. 4 модальным интервалом построенного ряда является интервал 35 - 40 чел., т.к. он имеет наибольшую частоту (f4=10). Расчет моды:
EMBED Equation.3
Вывод. Для рассматриваемой совокупности банков наиболее распространенная величина пассивов характеризуется средней величиной 18,145 млрд.руб.
Для определения медианы графическим методом строим по данным табл. 5 (графы 2 и 5) кумуляту распределения фирм по изучаемому признаку.
Рис. 2. Определение медианы графическим методом
Расчет конкретного значения медианы для интервального ряда распределения производится по формуле
EMBED Equation.3,
где хМе– нижняя граница медианного интервала,
h – величина медианного интервала,
EMBED Equation.3– сумма всех частот,
fМе – частота медианного интервала,
SMе-1 – кумулятивная (накопленная) частота интервала, предшествующего медианному.
Определяем медианный интервал, используя графу 5 табл. 5. Медианным интервалом является интервал 16-21 млрд.руб., т.к. именно в этом интервале накопленная частота Sj=22 впервые превышает полусумму всех частот (EMBED Equation.3).
Расчет медианы:
EMBED Equation.3
Вывод. В рассматриваемой совокупности банков половина имеют величины пассивов не более 18,085 млрд.руб., а другая половина – не менее 18,085 млрд.руб.
3. Расчет характеристик ряда распределения
Для расчета характеристик ряда распределения EMBED Equation.3 , ?, ?2, V? на основе табл. 5 строим вспомогательную таблицу 6 ( EMBED Equation.3 – середина интервала).
Таблица 6
Расчетная таблица для нахождения характеристик ряда распределения
Рассчитаем среднюю арифметическую взвешенную:
EMBED Equation.3
Рассчитаем среднее квадратическое отклонение:
EMBED Equation.3
Рассчитаем дисперсию:
?2 = 6,0462 = 36,554
Рассчитаем коэффициент вариации:
EMBED Equation.3
Вывод. Анализ полученных значений показателей EMBED Equation.3 и ? говорит о том, что средняя величина пассивов составляет 18,167 млрд. руб., отклонение от этой величины в ту или иную сторону составляет в среднем 6,046 млрд.руб. (или 33,3%), наиболее характерная величина пассивов находится в пределах от 12, 121 млрд.руб. до 24,213 млрд.руб. (диапазон EMBED Equation.3 ).
Значение V? = 33,3% не превышает 39%, следовательно, вариация пассивов в исследуемой совокупности банков незначительна и совокупность по данному признаку однородна. Расхождение между значениями EMBED Equation.3 , Мо и Ме незначительно ( EMBED Equation.3 =18,167 млрд.руб., Мо=18,145 млрд.руб., Ме=18,085 млрд.руб.), что подтверждает вывод об однородности совокупности банков. Таким образом, найденное среднее значение пассивов (18,167 млрд.руб.) является типичной, надежной характеристикой исследуемой совокупности банков.
4. Вычисление средней арифметической по исходным данным о среднесписочной численности менеджеров фирм
Для расчета применяется формула средней арифметической простой:
EMBED Equation.3,
Причина расхождения средних величин, рассчитанных по исходным данным (18,00 млрд.руб.) и по интервальному ряду распределения (18,167 млрд.руб.), заключается в том, что в первом случае средняя определяется по фактическим значениям исследуемого признака для всех 30-ти фирм, а во втором случае в качестве значений признака берутся середины интервалов EMBED Equation.3 и, следовательно, значение средней будет менее точным. Вместе с тем, при округлении обеих рассматриваемых величин их значения совпадают (18,000 млрд.руб.), что говорит о достаточно равномерном распределении пассивов внутри каждой группы интервального ряда.
Задание 2
По исходным данным (табл. 1) с использованием результатов выполнения Задания 1 необходимо выполнить следующее:
Установить наличие и характер корреляционной связи между признаками Пассивы и Работающие активы, образовав шесть групп с равными интервалами по каждому из признаков, используя методы:
а) аналитической группировки;
б) корреляционной таблицы.
2. Измерить тесноту корреляционной связи, используя коэффициент детерминации и эмпирическое корреляционное отношение.
Сделать выводы по результатам выполнения задания 2.
Выполнение задания 2
Целью выполнения данного задания является выявление наличия корреляционной связи между факторным и результативным признаками, а также установление направления связи и оценка ее тесноты.
По условию Задания 2 факторным является признак Среднесписочная численность менеджеров, результативным – признак Объем продаж.
1. Установление наличия и характера корреляционной связи между признаками Среднесписочная численность менеджеров и Объём продаж методами аналитической группировки и корреляционных таблиц
1а. Применение метода аналитической группировки
Аналитическая группировка строится по факторному признаку Х и для каждой j-ой группы ряда определяется среднегрупповое значение EMBED Equation.3 результативного признака Y. Если с ростом значений фактора Х от группы к группе средние значения EMBED Equation.3 систематически возрастают (или убывают), между признаками X и Y имеет место корреляционная связь.
Используя разработочную таблицу 3, строим аналитическую группировку, характеризующую зависимость между факторным признаком Х- Среднесписочная численность менеджеров и результативным признаком Y - Объём продаж. Макет аналитической таблицы имеет следующий вид (табл. 7):
Таблица 7
Зависимость объема продаж от среднесписочной численности менеджеров
Групповые средние значения EMBED Equation.3 получаем из таблицы 3 (графа 4), основываясь на итоговых строках «Всего». Построенную аналитическую группировку представляет табл. 8:
Таблица 8
Зависимость объема продаж от среднесписочной численности менеджеров
Вывод. Анализ данных табл. 8 показывает, что с увеличением пассивов от группы к группе систематически возрастает и средняя величина работающих активов по каждой группе банков, что свидетельствует о наличии прямой корреляционной связи между исследуемыми признаками.
1б. Применение метода корреляционных таблиц
Корреляционная таблица строится как комбинация двух рядов распределения по факторному признаку Х и результативному признаку Y. На пересечении j-ой строки и k-ой графы таблицы указывается число единиц совокупности, входящих в j-ый интервал по признаку X и в k-ый интервал по признаку Y. Концентрация частот около диагонали построенной таблицы свидетельствует о наличии корреляционной связи между признаками - прямой или обратной. Связь прямая, если частоты располагаются по диагонали, идущей от левого верхнего угла к правому нижнему, обратная - по диагонали от правого верхнего угла к левому нижнему.
Для построения корреляционной таблицы необходимо знать величины и границы интервалов по двум признакам X и Y. Для факторного признака Х – Среднесписочная численность менеджеров эти величины известны из табл. 4 Определяем величину интервала для результативного признака Y – Объем продаж при k = 6, уmax = 29,00 млрд.руб., уmin = 5,00 млрд.руб.:
EMBED Equation.3
Границы интервалов ряда распределения результативного признака Y имеют вид:
Таблица 9
Подсчитывая для каждой группы число входящих в нее фирм с использованием принципа полуоткрытого интервала [ ), получаем интервальный ряд распределения результативного признака (табл. 10).
Таблица 10
Интервальный ряд распределения банков по работающим активам
Используя группировки по факторному и результативному признакам, строим корреляционную таблицу (табл. 11).
Таблица 11
Корреляционная таблица зависимости объема продаж
от среднесписочной численности менеджеров
Вывод. Анализ данных табл. 11 показывает, что распределение частот групп произошло вдоль диагонали, идущей из левого верхнего угла в правый нижний угол таблицы. Это свидетельствует о наличии прямой корреляционной связи между пассивами и работающими активами банков.
2. Измерение тесноты корреляционной связи с использованием коэффициента детерминации EMBED Equation.3 и эмпирического корреляционного отношения EMBED Equation.3
Коэффициент детерминации EMBED Equation.3 характеризует силу влияния факторного (группировочного) признака Х на результативный признак Y и рассчитывается как доля межгрупповой дисперсии EMBED Equation.3 признака Y в его общей дисперсииEMBED Equation.3:
EMBED Equation.3
где EMBED Equation.3 – общая дисперсия признака Y,
EMBED Equation.3 – межгрупповая (факторная) дисперсия признака Y.
Общая дисперсия EMBED Equation.3 характеризует вариацию результативного признака, сложившуюся под влиянием всех действующих на Y факторов (систематических и случайных) и вычисляется по формуле
EMBED Equation.3, (10)
где yi – индивидуальные значения результативного признака;
EMBED Equation.3 – общая средняя значений результативного признака;
n – число единиц совокупности.
Межгрупповая дисперсия EMBED Equation.3 измеряет систематическую вариацию результативного признака, обусловленную влиянием признака-фактора Х (по которому произведена группировка) и вычисляется по формуле
EMBED Equation.3, (13)
где EMBED Equation.3 –групповые средние,
EMBED Equation.3 – общая средняя,
EMBED Equation.3 –число единиц в j-ой группе,
k – число групп.
Для расчета показателей EMBED Equation.3 и EMBED Equation.3 необходимо знать величину общей средней EMBED Equation.3 , которая вычисляется как средняя арифметическая простая по всем единицам совокупности:
EMBED Equation.3
Значения числителя и знаменателя формулы имеются в табл. 8 (графы 3 и 4 итоговой строки). Используя эти данные, получаем общую среднюю EMBED Equation.3 :
EMBED Equation.3 = EMBED Equation.3 =16,00 млрд.руб.
Для расчета общей дисперсии EMBED Equation.3 применяется вспомогательная таблица 12.
Таблица 12
Вспомогательная таблица для расчета общей дисперсии
Рассчитаем общую дисперсию:
EMBED Equation.3=EMBED Equation.3
Для расчета межгрупповой дисперсии EMBED Equation.3 строится вспомогательная таблица 13 При этом используются групповые средние значения EMBED Equation.3 из табл. 8 (графа 5).
Таблица 13
Вспомогательная таблица для расчета межгрупповой дисперсии
Рассчитаем межгрупповую дисперсию:
EMBED Equation.3EMBED Equation.3
Определяем коэффициент детерминации:
EMBED Equation.3 или 90,8%
Вывод. 90,8% вариации работающих активов банка обусловлено вариацией величины пассивов, а 9,2% – влиянием прочих неучтенных факторов.
Эмпирическое корреляционное отношение EMBED Equation.3 оценивает тесноту связи между факторным и результативным признаками и вычисляется по формуле
EMBED Equation.3
Рассчитаем показатель EMBED Equation.3:
EMBED Equation.3
Вывод: согласно шкале Чэддока связь между пассивами и работающими активами банков является весьма тесной.
Задание 3
По результатам выполнения Задания 1 с вероятностью 0,954 необходимо определить:
ошибку выборки для средней величины среднесписочной численности менеджеров, а также границы, в которых будет находиться генеральная средняя.
ошибку выборки доли фирм со среднесписочной численностью менеджеров 40 человек и более, а также границы, в которых будет находиться генеральная доля фирм.
Выполнение Задания 3
Целью выполнения данного Задания является определение для генеральной совокупности фирм региона границ, в которых будут находиться средняя величина среднесписочной численности менеджеров, и доля фирм со среднесписочной численностью менеджеров не менее 40 человек.
1. Определение ошибки выборки для величины пассивов, а также границ, в которых будет находиться генеральная средняя
Применяя выборочный метод наблюдения, необходимо рассчитать ошибки выборки (ошибки репрезентативности), т.к. генеральные и выборочные харак- теристики, как правило, не совпадают, а отклоняются на некоторую величину ?.
Принято вычислять два вида ошибок выборки - среднюю EMBED Equation.3 и предельную EMBED Equation.3 .
Для расчета средней ошибки выборки EMBED Equation.3 применяются различные формулы в зависимости от вида и способа отбора единиц из генеральной совокупности в выборочную.
Для собственно-случайной и механической выборки с бесповторным способом отбора средняя ошибка EMBED Equation.3 для выборочной средней EMBED Equation.3 определяется по формуле
EMBED Equation.3 ,
где EMBED Equation.3 – общая дисперсия изучаемого признака,
N – число единиц в генеральной совокупности,
n – число единиц в выборочной совокупности.
Предельная ошибка выборки EMBED Equation.3 определяет границы, в пределах которых будет находиться генеральная средняя:
EMBED Equation.3 ,
EMBED Equation.3 ,
где EMBED Equation.3 – выборочная средняя,
EMBED Equation.3 – генеральная средняя.
Предельная ошибка выборки EMBED Equation.3 кратна средней ошибке EMBED Equation.3 с коэффициентом кратности t (называемым также коэффициентом доверия):
EMBED Equation.3
Коэффициент кратности t зависит от значения доверительной вероятности Р, гарантирующей вхождение генеральной средней в интервал EMBED Equation.3 , называемый доверительным интервалом.
Наиболее часто используемые доверительные вероятности Р и соответствующие им значения t задаются следующим образом (табл. 14):
Таблица 14
По условию Задания 2 выборочная совокупность насчитывает 30 фирм, выборка 5% механическая, следовательно, генеральная совокупность включает 150 банков. Выборочная средняя EMBED Equation.3 , дисперсия EMBED Equation.3 определены в Задании 1 (п. 3). Значения параметров, необходимых для решения задачи, представлены в табл. 15:
Таблица 15
Рассчитаем среднюю ошибку выборки:
EMBED Equation.3
Рассчитаем предельную ошибку выборки:
EMBED Equation.3
Определим доверительный интервал для генеральной средней:
EMBED Equation.3
EMBED Equation.3
Вывод. На основании проведенного выборочного обследования с вероятностью 0,954 можно утверждать, что для генеральной совокупности банков средняя величина пассивов находится в пределах от 16,2160 до 20,1150 млрд.руб.
2. Определение ошибки выборки для доли банков с величиной пассивов 31 и более млрд.руб., а также границ, в которых будет находиться генеральная доля
Доля единиц выборочной совокупности, обладающих тем или иным заданным свойством, выражается формулой
EMBED Equation.3 ,
где m – число единиц совокупности, обладающих заданным свойством;
n – общее число единиц в совокупности.
Для собственно-случайной и механической выборки с бесповторным способом отбора предельная ошибка выборки EMBED Equation.3 доли единиц, обладающих заданным свойством, рассчитывается по формуле
EMBED Equation.3 ,
где w – доля единиц совокупности, обладающих заданным свойством;
(1-w) – доля единиц совокупности, не обладающих заданным свойством,
N – число единиц в генеральной совокупности,
n– число единиц в выборочной совокупности.
Предельная ошибка выборки EMBED Equation.3 определяет границы, в пределах которых будет находиться генеральная доля р единиц, обладающих исследуемым признаком:
EMBED Equation.3
По условию Задания 3 исследуемым свойством фирм является равенство или превышение среднесписочной численности менеджеров величины 40 человек.
Число фирм с данным свойством определяется из табл. 3 (графа 3):
m=8
Рассчитаем выборочную долю:
EMBED Equation.3
Рассчитаем предельную ошибку выборки для доли:
EMBED Equation.3
Определим доверительный интервал генеральной доли:
EMBED Equation.3
0,112 EMBED Equation.3 0,422
или
11,2% EMBED Equation.3 42,2%
Вывод. С вероятностью 0,954 можно утверждать, что в генеральной совокупности банков региона доля банков с величиной пассивов 21 и более млрд.руб. будет находиться в пределах от 11,2% до 42,2%.
Литература
Громыко Г.Л. Теория статистики: Учебник. - М.: ИНФРА-М, 2006.
Громыко Г.Л. Теория статистики: Практикум. - М.: ИНФРА-М, 2003.
Гусаров В.М. Статистика: Учеб. пособие для вузов. - М.: ЮНИТИ - ДАНА, 2001.
Гусаров В.М. Статистика: Учеб пособие/ В.М. Гусаров, Е.И. Кузнецова. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2007.
Общая теория статистики: Статистическая методология в изучении коммерческой деятельности: Учебник / Под. ред. Башиной О.Э., Спирина А.А. – М.: Финансы и статисика, 2005.
Практикум по статистике: Учеб. пособие для вузов/ Под ред. В.М. Симчеры. - М.: Финстатинформ, 1999.
Практикум по теории статистики: Учебное пособие/Под. ред. Шмойловой Р.А. – М.: Финансы и статистика, 2004.
Сироткина Т.С., Каманина А.М. Основы теории статистики: Учеб. пособие для вузов/ Под ред. проф. В.М. Симчеры. - М.: Финстатинформ, 1995, 1996.
Статистика: Учеб. пособие/А.В. Багат, М.М. Конкина, В.М. Симчера и др.; Под ред. В.М. Симчеры.- М.: Финансы и статистика, 2005.
Теория статистики: Учебник/Под. ред. Шмойловой Р.А. – М.: Финансы и статистика, 2001; 2003; 2006.
Содержание
Введение ………………………………………………………………..
Раздел I Методические рекомендации к выполнению
статистических расчётов…………………………….............................
Задание 1……………………………………………………………………………
Задание 2……………………………………………………………………………
Задание 3……………………………………………………………………………
Раздел II Образец выполнения оформления Заданий 1-3
курсовых и контрольных работ………………………………………..
Задание 1……………………………………………………………………………
Задание 2……………………………………………………………………………
Задание 3……………………………………………………………………………
Литература……………………………………………………………...