§11. Елементи математичної статистики. Основні поняття. Статистичні
оцінки параметрів розподілу. Точкові оцінки характеристик.
Математичною статистикою називається наука, яка займається розробкою методів відбору, опису і аналізу дослідних даних з метою вивчення закономірностей випадкових масових явищ.
В свою чергу, встановлення цих закономірностей базується на вивченні методами теорії ймовірностей статистичних даних – результатів досліду або спостережень.
Найбільш важливі задачі математичної статистики можна умовно розділити на дві групи:
перша група – вказати способи відбору і групування статистичних даних;
друга група – розробити методи аналізу статистичних даних в залежності від мети дослідження.
До другої групи відносяться такі задачі:
а) Оцінка невідомої функції розподілу; - в результаті незалежних спроб (вимірів) над випадковою величиною EMBED Equation.3 одержані її значення EMBED Equation.3 . Потрібно наближено оцінити невідому функцію розподілу EMBED Equation.3 випадкової величини EMBED Equation.3 .
б) Оцінка невідомих параметрів розподілу: - випадкова величина EMBED Equation.3 має функцію розподілу певного типу, яка залежить від EMBED Equation.3 параметрів, значення яких невідомі. Потрібно на основі дослідних даних оцінити значення цих параметрів.
в) Статистична перевірка гіпотез: - на основі певних міркувань можна вважати, що EMBED Equation.3 є функцією розподілу досліджуваної випадкової величини EMBED Equation.3 . Потрібно встановити, чи сумісні ці спостережувані значення з гіпотезою, що випадкова величина EMBED Equation.3 дійсно має розподіл EMBED Equation.3 .
Основні поняття.
Нехай потрібно дослідити яку-небудь ознаку, характерну великій групі однотипних елементів (наприклад, міцність зразків сплаву, відхилення розмірів виготовлених деталей від номінального розміру, тощо).
Сукупність значень ознаки всіх EMBED Equation.3 елементів даного типу називається генеральною сукупністю.
Число EMBED Equation.3 може бути скінченним або нескінченним.
Звичайно, на практиці неможливо, або й економічно невигідно обстежити всю генеральну сукупність. Тоді із всієї сукупності елементів випадковим чином вибирають обмежену кількість елементів, які і вивчають.
Вибірковою сукупністю або вибіркою називається сукупність випадково відібраних елементів.
Вибірковий метод полягає в тому, що з генеральної сукупності обсягу EMBED Equation.3 береться вибірка обсягу EMBED Equation.3 , де EMBED Equation.3 і визначаються характеристики вибірки, які приймаються за наближене значення відповідних характеристик генеральної сукупності.
1.1. Статистичний розподіл вибірки
Нехай в результаті проведення досліду з генеральної сукупності зроблена вибірка обсягу EMBED Equation.3 . Вважаємо, що ознака EMBED Equation.3 - дискретна випадкова величниа, причому значення EMBED Equation.3 спостерігалось EMBED Equation.3 разів, тобто EMBED Equation.3 спостерігалось EMBED Equation.3 разів, EMBED Equation.3 - EMBED Equation.3 разів, …, EMBED Equation.3 - EMBED Equation.3 разів, і EMBED Equation.3 (обсягу вибірки).
Значення EMBED Equation.3 називають варіантами, а послідовність варіант, розташованих в порядку зростання – варіаційним рядом. Числа спостережень EMBED Equation.3 називають частотами, а відношення цих чисел до обсягу вибірки EMBED Equation.3 - відносними частотами. Результати досліду зручно представити у вигляді
таблиці частот
або таблиці відносних частот
Якщо ознака EMBED Equation.3 - неперервна випадкова величина, то користуються інтервальними таблицями частот
При цьому весь діапазон зміни варіант від EMBED Equation.3 = EMBED Equation.3 до EMBED Equation.3 = EMBED Equation.3 розбивають на 10-20 частинних інтервалів з межами EMBED Equation.3 , EMBED Equation.3 ,…, EMBED Equation.3 і підраховують частоту EMBED Equation.3 попадання в EMBED Equation.3 -й частинний інтервал. Аналогічно будується інтервальна таблиця відносних частот.
Сукупність значень варіант і відповідних їм частот (або відносних частот) називають статистичним розподілом вибірки.
Приклад 1. Задано розподіл вибірки EMBED Equation.3 .
Записати розподіл відносних частот.
Розв’язання. Обсяг вибірки EMBED Equation.3 .
Шуканий розподіл відносних частот має вигляд
EMBED Equation.3
або остаточно
EMBED Equation.3
Варто зауважити, що в теорії ймовірностей під розподілом розуміємо відповідність між можливими значеннями випадкової величини і їх ймовірностями, а в математичній статистиці під розподілом розуміємо відповідність між спостережуваними значеннями (варіантами) і їх частотами (або відносними частотами).
1.2. Полігон і гістограма.
Часто для наочності будують різні графіки статистичного розподілу.
Полігон частот – це ламана лінія, відрізки якої з’єднують точки EMBED Equation.3 .
Полігон відносних частот – це теж ламана лінія, відрізки якої з’єднують точки EMBED Equation.3 , де EMBED Equation.3 - обсяг вибірки.
Якщо ознака EMBED Equation.3 неперервна, то будують гістограму. При цьому інтервал, в якому лежать всі спостережувані значення ознаки, розбивають на декілька частинних інтервалів однакової довжини EMBED Equation.3 кожен і знаходять для кожного частинного інтервалу EMBED Equation.3 - суму частот варіант, що попали в EMBED Equation.3 -ий інтервал.
Гістограма частот – це ступінчата фігура, складена із прямокутників, основами яких є частинні інтервали довжини EMBED Equation.3 , а висоти дорівнюють EMBED Equation.3 - щільність частоти. Тоді площа EMBED Equation.3 -го прямокутника дорівнює EMBED Equation.3 , а площа всієї гістограми частот дорівнює EMBED Equation.3 - обсягу вибірки.
Іноді будують гістограму відносних частот, в цьому випадку висота EMBED Equation.3 -го прямокутника дорівнює EMBED Equation.3 , площа гістограми відносних частот дорівнює одиниці.
Приклад 2. Задано розподіл вибірки обсягу EMBED Equation.3 .
Побудувати гістограму частот.
1.3. Емпірична функція розподілу.
Нехай маємо статистичний розподіл вибірки обсягу EMBED Equation.3 . Позначимо EMBED Equation.3 - кількість спостережень, при яких спостерігали значення ознаки EMBED Equation.3 менше числа EMBED Equation.3 . Відносна частота події EMBED Equation.3 буде EMBED Equation.3 . Із зміною EMBED Equation.3 змінюється і відносна частота, тобто відносна частота EMBED Equation.3 є функцією від EMBED Equation.3 .
Функцією розподілу вибірки називають функцію EMBED Equation.3 , яка визначає для кожного значення EMBED Equation.3 відносну частоту події EMBED Equation.3 : EMBED Equation.3 = EMBED Equation.3 , (1)
де EMBED Equation.3 - число варіант, менших EMBED Equation.3 .
Її ще називають емпіричною функцією розподілу, оскільки вона шукається емпіричним (дослідним) шляхом.
Функцію розподілу EMBED Equation.3 генеральної сукупності називають теоретичною функцією розподілу.
Теоретична функція розподілу визначає ймовірність події EMBED Equation.3 , а емпірична функція EMBED Equation.3 - відносну частоту цієї події.
Із закону великих чисел, зокрема з теореми Бернуллі, випливає, що відносна частота події EMBED Equation.3 збігається за ймовірністю до ймовірності цієї події, тобто
EMBED Equation.3 Іншими словами, для великих значень EMBED Equation.3 емпірична функція розподілу наближено представляє теоретичну функцію розподілу генеральної сукупності.
Із означення емпіричної функції розподілу EMBED Equation.3 маємо такі її властивості:
EMBED Equation.3 . EMBED Equation.3 .
EMBED Equation.3 . EMBED Equation.3 - неспадна функція.
EMBED Equation.3 . EMBED Equation.3 =0 при EMBED Equation.3 , EMBED Equation.3 =1 при EMBED Equation.3 ,
де EMBED Equation.3 , EMBED Equation.3 - найменша і найбільша варіанти.
Приклад 3. Побудувати емпіричну функцію розподілу за розподілом вибірки прикладу 1.
EMBED Equation.3
2. Статистичні оцінки параметрів розподілу
Нехай нам потрібно вивчити кількісну ознаку генеральної сукупності. Припустимо, що з теоретичних міркувань ми допускаємо певний вид розподілу ознаки, наприклад розподіл Пуассона. Цей розподіл визначається параметром EMBED Equation.3 , який треба оцінити, виходячи з даних вибірки EMBED Equation.3 .
Розглядаючи значення EMBED Equation.3 як незалежні випадкові величини EMBED Equation.3 , приходимо до висновку, що знайти статистичну оцінку невідомого параметра розподілу означає знайти функцію від випадкових величин, яка й буде наближеним значенням параметра.
Нехай ? - невідомий параметр теоретичного розподілу. Задача оцінювання параметра полягає в побудові наближеної формули
? EMBED Equation.3 ?* EMBED Equation.3 , (2)
де функція ?* EMBED Equation.3 - статистика - теж є випадковою величиною, закон розподілу якої залежить як від закону розподілу випадкових величин EMBED Equation.3 , так і від кількості дослідів. Значення функції ?* EMBED Equation.3 в наближеній рівності (2) називається оцінкою параметра ?. Для того, щоб оцінка ?* мала практичну цінність, вона повинна мати такі властивості:
EMBED Equation.3 . незміщеність
незміщеною називається оцінка, математичне сподівання якої дорівнює оцінюваному параметру
EMBED Equation.3 . (3)
EMBED Equation.3 . спроможність (обгрунтованість)
Оцінка ?* називається спроможною, якщо вона збігається за ймовірністю до оцінюваного параметра ?, тобто
EMBED Equation.3 , EMBED Equation.3 . (4)
Для виконання цієї умови достатньо, щоб дисперсія оцінки EMBED Equation.3 при EMBED Equation.3 , тобто
EMBED Equation.3 (це випливає із нерівності Чебишова).
EMBED Equation.3 . ефективність .
Оцінки, що мають властивості незміщеності і спроможності, при обмеженій кількості дослідів можуть відрізнятися дисперсіями. Очевидно, що чим менша дисперсія оцінки, тим менша ймовірність грубої похибки при визначенні наближеного значення параметра. Тому необхідно, щоб дисперсія оцінки була мінімальною
EMBED Equation.3 (5)
Остання умова і визначає ефективність оцінки.
3. Точкові оцінки числових характеристик
Нехай з генеральної сукупності відносно кількісної ознаки EMBED Equation.3 зроблена вибірка обсягу EMBED Equation.3 із значеннями ознаки EMBED Equation.3 . Позначимо через EMBED Equation.3 математичне сподівання і дисперсію ознаки EMBED Equation.3 генеральної сукупності.
За оцінку математичного сподівання ознаки EMBED Equation.3 приймають вибіркове середнє
EMBED Equation.3 (6)
Покажемо, що ця оцінка є спроможною і незміщеною. Будемо розглядати EMBED Equation.3 як незалежні, однаково розподілені випадкові величини EMBED Equation.3 , математичне сподівання яких EMBED Equation.3 .
Оскільки EMBED Equation.3 ,
то робимо висновок, що оцінка (6) є незміщеною.
Покажемо, що оцінка (6) є спроможною. Дійсно, на основі закону великих чисел (теорема Чебишова)
EMBED Equation.3 . (7)
Для характеристики розсіювання спостережуваних значень кількісної ознаки вибірки відносно значення EMBED Equation.3 вводять вибіркову дисперсію EMBED Equation.3
EMBED Equation.3 (8)
Покажемо, що ця оцінка є спроможною оцінкою дисперсії EMBED Equation.3 . Для цього перетворимо вираз (8) EMBED Equation.3 EMBED Equation.3
= EMBED Equation.3 (9)
Член EMBED Equation.3 - це середнє арифметичне EMBED Equation.3 спостережуваних значень випадкової величини EMBED Equation.3 , отже він збігається за ймовірністю до EMBED Equation.3 . Другий доданок EMBED Equation.3 збігається за ймовірністю до EMBED Equation.3 . Це означає, що права частина виразу (9) збігається за ймовірністю до величини
EMBED Equation.3 , тобто до дисперсії EMBED Equation.3 .
Отже, вибіркова дисперсія EMBED Equation.3 є спроможною оцінкою дисперсії EMBED Equation.3 .
Перевіримо незміщеність оцінки (8) , тобто перевіримо, чи EMBED Equation.3 Для цього в (9) замість EMBED Equation.3 підставимо вираз (6):
EMBED Equation.3 EMBED Equation.3 . (10)
Оскільки дисперсія не залежить від того, в якій точці вибрати початок координат, то виберемо його в точці EMBED Equation.3 , (тоді EMBED Equation.3
і EMBED Equation.3 .
Оскільки EMBED Equation.3 незалежні, то EMBED Equation.3 . Тому EMBED Equation.3 . (11)
Це означає, що оцінка (8) є зміщеною оцінкою для дисперсії EMBED Equation.3 . Проте якщо помножити величину EMBED Equation.3 на EMBED Equation.3 , то одержимо незміщену оцінку
EMBED Equation.3 .
Оскільки множник EMBED Equation.3 при EMBED Equation.3 , то оцінка
EMBED Equation.3 (12)
буде і спроможною.
Величину EMBED Equation.3 називають виправленою вибірковою дисперсією. На практиці користуються виправленою дисперсією для EMBED Equation.3 .
Величина EMBED Equation.3 (13)
називається виправленим середнім квадратичним відхиленням.
Запишемо формули для обчислення вибіркового середнього і вибіркової дисперсії для випадку, якщо варіанти EMBED Equation.3 мають частоти EMBED Equation.3 , причому EMBED Equation.3 :
EMBED Equation.3 . (14)
На практиці для обчислення вибіркової дисперсії використовують робочу формулу
EMBED Equation.3 , (15)
де EMBED Equation.3 , або EMBED Equation.3 (якщо різні варіанти). (16)
4. Метод моментів обчислення точкової оцінки параметрів розподілу.
Метод моментів точкової оцінки невідомих параметрів розподілу полягає в прирівнюванні теоретичних моментів розглядуваного розподілу відповідним емпіричним моментам цього ж самого порядку. Цей метод запропонований К.Пірсоном.
4.1. Оцінка одного параметра.
Припустимо, що нам відомий вигляд щільності розподілу EMBED Equation.3 ознаки EMBED Equation.3 , який визначається одним параметром EMBED Equation.3 . Розглянемо, як знайти точкову оцінку цього параметра. Для оцінки одного параметра достатньо мати одне рівняння відносно цього параметра. Прирівняємо, наприклад, початковий теоретичний момент першого порядку EMBED Equation.3 до початкового емпіричного моменту того ж порядку EMBED Equation.3 : EMBED Equation.3 = EMBED Equation.3 .
Враховуючи, що EMBED Equation.3 = EMBED Equation.3 , а EMBED Equation.3 = EMBED Equation.3 , отримаємо EMBED Equation.3 = EMBED Equation.3 . (17)
Математичне сподівання EMBED Equation.3 = EMBED Equation.3 є функцією від EMBED Equation.3 , тому співвідношення (17) можна розглядати як рівняння з одним невідомим.
Приклад 4. Випадкова величина EMBED Equation.3 - час роботи елемента – має показниковий розподіл з параметром EMBED Equation.3 . Отримано статистичний розподіл середнього часу роботи 200 елементів
де EMBED Equation.3 - середній час роботи елемента в год, частота EMBED Equation.3 - кількість елементів, які пропрацювали в середньому EMBED Equation.3 год. Знайти методом моментів точкову оцінку параметра EMBED Equation.3 .
Розв’язання. Прирівнявши теоретичний і емпіричний моменти першого порядку і враховуючи, що для показникового закону EMBED Equation.3 , отримаємо EMBED Equation.3 . Отже, точковою оцінкою параметра EMBED Equation.3 є EMBED Equation.3 = EMBED Equation.3 . Обчисливши EMBED Equation.3 = EMBED Equation.3 =5, одержимо EMBED Equation.3 = EMBED Equation.3
4.2. Оцінка двох параметрів.
Припустимо, що щільність розподілу має вигляд EMBED Equation.3 , де EMBED Equation.3 невідомі параметри. Для їх знаходження потрібно мати два рівняння. Прирівняємо теоретичний і емпіричний початкові моменти першого порядку EMBED Equation.3 = EMBED Equation.3 і теоретичний і емпіричний центральні моменти другого порядку EMBED Equation.3 = EMBED Equation.3 . Враховуючи, що EMBED Equation.3 = EMBED Equation.3 , EMBED Equation.3 = EMBED Equation.3 , EMBED Equation.3 = EMBED Equation.3 , EMBED Equation.3 = EMBED Equation.3 , отримаємо систему двох рівнянь
EMBED Equation.3 (18)
для знаходження невідомих параметрів EMBED Equation.3 .
Приклад 5. Випадкова величина EMBED Equation.3 - відхилення контрольованого розміру виробу від номіналу – підлягає нормальному закону розподілу з параметрами EMBED Equation.3 і EMBED Equation.3 . Отримано статистичний розподіл відхилення від номіналу 200 виробів
Знайти методом моментів точкові оцінки параметрів EMBED Equation.3 і EMBED Equation.3 .
Розв’язання. Враховуючи, що для нормального розподілу EMBED Equation.3 = EMBED Equation.3 = EMBED Equation.3 , EMBED Equation.3 = EMBED Equation.3 = EMBED Equation.3 , і прирівнюючи відповідні теоретичні і емпіричні моменти EMBED Equation.3 = EMBED Equation.3 , EMBED Equation.3 = EMBED Equation.3 , отримаємо вирази для точкових оцінок EMBED Equation.3 EMBED Equation.3 = EMBED Equation.3 =1,266. EMBED Equation.3 = EMBED Equation.3 =0,25.
Звідки EMBED Equation.3