§12.Інтервальні оцінки. Надійна ймовірність. Надійні інтервали.
В попередній лекції ми розглядали методи побудови і властивості точкових оцінок, тобто оцінок, які визначаються одним числом. Звичайно, при користуванні такими оцінками ми не можемо вказати їх точність, тобто наскільки вони відхиляються від істинних значень параметрів. Зрозуміло, що точкові оцінки залежать від обсягу вибірки. Зокрема, якщо обсяг вибірки малий, то точкова оцінка може суттєво відрізнятися від оцінюваного параметра. Тому зручніше користуватися інтервальними оцінками, тобто такими оцінками, які визначаються двома числами - кінцями інтервалу.
Нехай за даними вибірки ми знайшли точкову оцінку EMBED Equation.3 параметра EMBED Equation.3 . Зрозуміло, що EMBED Equation.3 буде тим точніше визначати параметр EMBED Equation.3 , чим меншою є величина EMBED Equation.3 . Тобто, для малого EMBED Equation.3 маємо
EMBED Equation.3 . (1)
Оцінка буде тим точнішою,чим менше EMBED Equation.3 . Число EMBED Equation.3 характеризує точність оцінки. Проте на основі даних вибірки ми не можемо стверджувати однозначно, що оцінка EMBED Equation.3 задовольняє нерівність (1). Ми можемо лише говорити про те, що нерівність (1) здійснюється з деякою ймовірністю EMBED Equation.3 .
Надійністю (або надійною ймовірністю) оцінки EMBED Equation.3 за EMBED Equation.3 називається ймовірність EMBED Equation.3 ,
з якою здійснюється нерівність (1): EMBED Equation.3 . (2)
Замінивши нерівність (1) тотожною подвійною нерівністю
EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 , отримаємо
EMBED Equation.3 , (3)
тобто ймовірність того, що інтервал EMBED Equation.3 (4)
заключає в собі невідомий параметр EMBED Equation.3 , дорівнює EMBED Equation.3 .
Такий інтервал називають надійним інтервалом (інтервалом довіри).
На практиці надійність оцінки звичайно задається наперед. Найчастіше задають EMBED Equation.3 EMBED Equation.3
EMBED Equation.3 . Тобто, якщо ми наперед вирішуємо нехтувати можливістю появи події з ймовірністю 0,01, то виберемо надійність EMBED Equation.3 ; тощо.
Кінці надійного інтервалу (4) є випадковими величинами, вони залежать від обсягу вибірки. Оскільки оцінюваний параметр EMBED Equation.3 не є випадковою величиною, то правильним є твердження, що надійний інтервал заключає в собі параметр EMBED Equation.3 з ймовірністю EMBED Equation.3 .
Метод надійних інтервалів в статистиці започаткований Р.Фішером і Ю.Нейманом.
Розглянемо деякі задачі на побудову надійних інтервалів.
Надійні інтервали для оцінки математичного сподівання
нормального розподілу при відомому EMBED Equation.3 .
Нехай відомо, що випадкова величина Х розподілена нормально і EMBED Equation.3 - її середнє квадратичне відхилення. Потрібно побудувати інтервальну оцінку для невідомого математичного сподівання EMBED Equation.3 . Точковою оцінкою для математичного сподівання є вибіркове середнє EMBED Equation.3 . (5)
Середнє вибіркове EMBED Equation.3 є різним для окремо взятих вибірок з генеральної сукупності, отже його можна розглядати як випадкову величину EMBED Equation.3 , а значення EMBED Equation.3 як однаково розподілені незалежні випадкові величини EMBED Equation.3 ( EMBED Equation.3 ). Оскільки значення EMBED Equation.3 незалежні, то
EMBED Equation.3 , EMBED Equation.3 ,
Вважаємо, що EMBED Equation.3 - відома величина.
Нерівність EMBED Equation.3 (6)
повинна виконуватись із заданою ймовірністю EMBED Equation.3 EMBED Equation.3
або, замінивши нерівність (6) еквівалентною нерівністю, отримаємо
EMBED Equation.3 , (7)
Пригадаємо, що для нормально розподіленої випадкової величини Х з параметрами а і EMBED Equation.3 ймовірність попадання в інтервал EMBED Equation.3 визначається формулою
EMBED Equation.3
де EMBED Equation.3 - функція Лапласа (табульована).
Тоді співвідношення (7) можна переписати так
EMBED Equation.3 .
Позначивши EMBED Equation.3 , маємо рівняння EMBED Equation.3 ; (8)
Таким чином, остаточно отримаємо EMBED Equation.3
Тобто побудований надійний інтервал EMBED Equation.3 (9)
заключає в собі невідомий параметр а (математичне сподівання) з ймовірністю EMBED Equation.3 . Число EMBED Equation.3 при заданому значенні EMBED Equation.3 знаходимо із таблиці значень функції Лапласа.
Висновки:
1) при збільшенні обсягу EMBED Equation.3 вибірки число EMBED Equation.3 зменшується, тобто точність оцінки
збільшується;
2) зростання надійності EMBED Equation.3 веде до збільшення EMBED Equation.3 , отже, до зростання EMBED Equation.3 , або до зменшення точності.
Приклад 1. Нехай EMBED Equation.3 .
Знайти надійний інтервал для а , якщо EMBED Equation.3 .
Для знаходження EMBED Equation.3 використаємо рівняння EMBED Equation.3 . Із таблиці значень функції Лапласа знаходимо EMBED Equation.3 .
Отже, EMBED Equation.3 і отримаємо інтервал EMBED Equation.3 або EMBED Equation.3 .
Цей результат треба трактувати так: якщо зроблена достатньо велика кількість вибірок, то в 95% випадків значення а лежить в знайденому інтервалі, а в 5% це значення а може вийти за межі інтервалу.
Надійні інтервали для оцінки математичного сподівання
нормального розподілу при невідомому EMBED Equation.3 .
В цьому випадку для малих обсягів вибірки EMBED Equation.3 використовують розподіл Стьюдента. Середнє вибіркове EMBED Equation.3 і виправлене середнє квадратичне відхилення EMBED Equation.3 є різними для окремо взятих вибірок з генеральної сукупності, отже їх можна розглядати як випадкові величини EMBED Equation.3 і EMBED Equation.3 . За даними вибірки обсягу EMBED Equation.3 можна побудувати випадкову величину
EMBED Equation.3 (10)
(її можливі значення позначимо через EMBED Equation.3 ), яка має розподіл Стьюдента з EMBED Equation.3 степенем вільності. Перевагою цього розподілу є те, що він визначається одним параметром EMBED Equation.3 -обсягом вибірки і не залежить від невідомих параметрів EMBED Equation.3 і EMBED Equation.3 . Щільність розподілу Стьюдента має вигляд
EMBED Equation.3 EMBED Equation.3 , (11)
де EMBED Equation.3 - гама-функція.
Оскільки EMBED Equation.3 парна функція від EMBED Equation.3 , то ймовірність виконання нерівності EMBED Equation.3 (12) визначається так EMBED Equation.3 EMBED Equation.3 . (13)
Замінивши нерівність (12) рівносильною їй подвійною нерівністю, отримаємо
EMBED Equation.3 , (14)
Для конкретної вибірки обсягу EMBED Equation.3 випадкові величини EMBED Equation.3 і EMBED Equation.3 замінимо невипадковими EMBED Equation.3 і EMBED Equation.3 . Отже, використовуючи розподіл Стьюдента, знайдемо надійний інтервал для оцінки математичного сподівання нормального розподілу при невідомому EMBED Equation.3
EMBED Equation.3 , (15)
який покриває невідомий параметр EMBED Equation.3 з надійністю EMBED Equation.3 .
EMBED Equation.3 - табульоване значення випадкової величини, розподіленої за законом Стьюдента, , яке визначається з рівняння (13) EMBED Equation.3 .
Із граничних співвідношень EMBED Equation.3 ; EMBED Equation.3 випливає, що із зростанням обсягу вибірки розподіл Стьюдента наближається до нормального
EMBED Equation.3 , коли EMBED Equation.3 .
Приклад 2. Нехай Х нормально розподілена випадкова величина; EMBED Equation.3
EMBED Equation.3 . Знаходимо EMBED Equation.3 з таблиці. EMBED Equation.3 .
Тоді EMBED Equation.3 .
Отже EMBED Equation.3 або EMBED Equation.3 .
3. Надійні інтервали для оцінки середнього квадратичного
відхилення EMBED Equation.3 нормального розподілу
Нехай випадкова величина Х розподілена нормально. За даними вибірки обсягу EMBED Equation.3 обчислили “виправлене” середнє квадратичне відхилення
EMBED Equation.3 . (16)
Знайдемо надійний інтервал, який заключає в собі параметр EMBED Equation.3 з надійністю EMBED Equation.3 .
Очевидно, нерівність EMBED Equation.3 повинна виконуватися з ймовірністю
EMBED Equation.3 , або EMBED Equation.3 .
Звідки EMBED Equation.3 , або EMBED Equation.3 ,
Отже, отримали інтервал EMBED Equation.3 (17)
Розглянемо , як знайти величину EMBED Equation.3 . (18)
Нехай EMBED Equation.3 ( EMBED Equation.3 ) незалежні нормально розподілені випадкові величини, для яких EMBED Equation.3 , EMBED Equation.3 . Тоді сума квадратів цих величин EMBED Equation.3 , де EMBED Equation.3 , розподілена за законом “ EMBED Equation.3 ” (читається “хі-квадрат”) або законом Пірсона з EMBED Equation.3 степенем вільності.
Щільність цього розподілу
EMBED Equation.3 (19)
тобто цей розподіл визначається одним параметром EMBED Equation.3 - обсягом вибірки і з ростом EMBED Equation.3 наближається до нормального.
Доведено, що випадкова величина EMBED Equation.3 (20)
розподілена за законом “ EMBED Equation.3 ” з EMBED Equation.3 степенем вільності. Позначимо EMBED Equation.3 EMBED Equation.3 (21)
Знайдемо щільність розподілу EMBED Equation.3 функції EMBED Equation.3 ( EMBED Equation.3 ) за формулою EMBED Equation.3 = EMBED Equation.3 . Оскільки обернена функція EMBED Equation.3 = EMBED Equation.3 і EMBED Equation.3 = EMBED Equation.3 , то
EMBED Equation.3 = EMBED Equation.3
або після спрощення EMBED Equation.3 = EMBED Equation.3 для EMBED Equation.3 (22)
Для того, щоб знайти EMBED Equation.3 (формула (18)), введемо випадкову величину EMBED Equation.3 EMBED Equation.3
Перетворимо нерівність (17), припустивши, що EMBED Equation.3
EMBED Equation.3 , або, помноживши почленно на EMBED Equation.3 , отримаємо
EMBED Equation.3 або EMBED Equation.3 . (23)
Ймовірність виконання нерівності (23) а отже і рівносильної їй нерівності (17), дорівнює
EMBED Equation.3 (24)
З рівняння (24) за даними значеннями EMBED Equation.3 і EMBED Equation.3 знаходять EMBED Equation.3 . Значення EMBED Equation.3 протабульовані.
Таким чином, побудований інтервал (17).
Приклад 3. Нехай EMBED Equation.3 , обчислено EMBED Equation.3 і задано EMBED Equation.3 .
Знайти надійний інтервал для EMBED Equation.3 .
З таблиці маємо EMBED Equation.3 .
Отже, 0,7(1-0,46)< EMBED Equation.3 <0,7(1+0,46) або 0,378< EMBED Equation.3 <1,022.
4. Оцінка ймовірності (біномного розподілу) за відносною частотою
Нехай проводяться незалежні досліди з невідомою ймовірністю EMBED Equation.3 появи події А в кожній спробі. Оцінимо невідому ймовірність EMBED Equation.3 за відносною частотою EMBED Equation.3 ;
а) точкова оцінка. За точкову оцінку ймовірності EMBED Equation.3 приймають відносну частоту EMBED Equation.3 (25)
де EMBED Equation.3 - число появ події А , EMBED Equation.3 - число спроб. Ця оцінка незміщена. Дійсно, оскільки EMBED Equation.3 , то
EMBED Equation.3 .
тобто математичне сподівання оцінки дорівнює оцінюваному параметру.
Дисперсія оцінки (оскільки EMBED Equation.3 )
EMBED Equation.3 , звідки EMBED Equation.3 . (26)
б) інтервальна оцінка.
Якщо EMBED Equation.3 досить велике і EMBED Equation.3 , то можна вважати, що відносна частота EMBED Equation.3 розподілена приблизно нормально. Тому можна користуватися формулою
EMBED Equation.3 .
В нашому випадку EMBED Equation.3 , або EMBED Equation.3 . (27)
Позначимо EMBED Equation.3 , де EMBED Equation.3 визначається з рівняння EMBED Equation.3 .
Отже, EMBED Equation.3 або EMBED Equation.3 (28)
Розв’яжемо останню нерівність (28) відносно EMBED Equation.3 .
Якщо EMBED Equation.3 , тоді EMBED Equation.3
Піднісши до квадрата, отримаємо, EMBED Equation.3 або
EMBED Equation.3 . (29)
Дискримінант тричлена нерівності (29)
EMBED Equation.3 EMBED Equation.3 , ( EMBED Equation.3 )
додатній, тому корені дійсні і різні.
Знаходимо менший корінь EMBED Equation.3
EMBED Equation.3 = EMBED Equation.3 EMBED Equation.3 (30)
і більший корінь EMBED Equation.3
EMBED Equation.3 = EMBED Equation.3 EMBED Equation.3 (31)
нерівності (29), тоді шуканий надійний інтервал
EMBED Equation.3 . (32)
Приклад 4. Знайти надійний інтервал для оцінки ймовірності EMBED Equation.3 появи події з надійністю EMBED Equation.3 , якщо у 80 спробах подія з’явилася 20 разів.
За умовою EMBED Equation.3 ; EMBED Equation.3 . Корінь рівняння EMBED Equation.3 знаходимо з таблиці:
EMBED Equation.3
Обчислимо відносну частоту появи події EMBED Equation.3 .
За формулами (30) і (31) знаходимо EMBED Equation.3 =0,167; EMBED Equation.3 =0,353.
Отже, шуканий надійний інтервал EMBED Equation.3