6. ВИБІРКОВИЙ МЕТОД. СТАТИСТИЧНА ПЕРЕВІРКА ГІПОТЕЗ
6.1. Суть вибіркового спостереження
Вибіркове спостереження — такий вид несуцільного спостереження, при якому обстежуються не всі елементи сукупності, що вивчається, а лише певним чином дібрана їх частина. Сукупність, з якої вибирають елементи для обстеження, називається генеральною, а сукупність, яку безпосередньо обстежують, — вибірковою. Статистичні характеристики вибіркової сукупності розглядаються як оцінки відповідних характеристик генеральної сукупності.
Практика вибіркових спостережень досить різноманітна. Це обстеження домогосподарств, маркетингові дослідження, аудиторські перевірки великих фірм, вивчення громадської думки тощо. При обстеженні невеликої частини генеральної сукупності зменшуються помилки реєстрації, можна розширити й деталізувати програму обстеження. З іншого боку, вибіркове спостереження забезпечує економію матеріальних, трудових, фінансових ресурсів і часу.
При вивченні певного кола соціально-економічних явищ вибіркове спостереження єдино можливе. Це стосується передусім перевірки якості продукції (жирності молока, чистоти та вологості зерна, міцності пряжі тощо). Часом вибіркове спостереження поєднується із суцільним. Наприклад, при перепису населення кожна четверта одиниця спостереження дає докладнішу інформацію. Крім того, вибірковий метод використовують для прискореної обробки матеріалів суцільного спостереження та перевірки правильності даних переписів і одноразових обстежень.
Об’єктивною гарантією того, що вибірка репрезентує (представляє) всю сукупність, є додержання наукових принципів організації та проведення спостереження, насамперед неупередженого, об’єктивного підходу до вибору елементів для обстеження. Принцип випадковості вибору забезпечує всім елементам генеральної сукупності рівні можливості потрапити у вибірку.
Якщо генеральна сукупність містить N елементів, а для обстеження потрібно вибрати з них частину n, то число можливих вибірок
.
Усі вони мають однакову ймовірність , але кожна з них несе в собі певну похибку, що відбиває факт випадковості вибору. Оскільки вибіркова сукупність не точно відтворює склад генеральної сукупності, то й вибіркові оцінки не збігаються з відповідними характеристиками генеральної сукупності. Розбіжності між ними називають похибками репрезентативності: для середньої — це різниця між генеральною та вибірковою середніми, для частки — різниця між генеральною і вибірковою р частками, для дисперсії — відношення генеральної та вибіркової дисперсій тощо.
За причинами виникнення похибки репрезентативності поділяються на тенденційні (систематичні) та випадкові. Тенденційні похибки виникають, коли при формуванні вибіркової сукупності порушений принцип випадковості (упереджений вибір елементів, недосконала основа вибірки тощо). Ці похибки для всіх елементів сукупності однонапрямлені і призводять до зсунення результатів обстеження.
Випадкові похибки — це наслідок випадковості вибору елементів для дослідження і пов’язаних з цим розбіжностей між структурами вибіркової та генеральної сукупностей щодо ознак, які вивчаються.
При організації вибіркового обстеження важливо уникнути тенденційних похибок. Незсуненість — одна з вимог до будь-якої вибіркової оцінки. Притаманних вибірковому спостереженню випадкових похибок уникнути неможливо, проте теорія вибіркового методу дає математичну основу для обчислення таких похибок та регулювання їх розміру.
Згідно з генеральною граничною теоремою за умови достатньо великого обсягу вибірки розподіл вибіркових середніх (і часток), незалежно від розподілу генеральної сукупності, асимптотично наближається до нормального. Більшість значень вибіркових середніх зосереджується навколо генеральної середньої, а отже, найбільшу ймовірність мають відхилення, близькі до нуля. Чим більше відхилення, тим менша його ймовірність. Для будь-якої ймовірності існує межа відхилень вибіркової середньої від генеральної. Використовуючи властивості нормального розподілу, для однієї конкретної вибірки можна визначити:
похибки репрезентативності — середню та граничну для взятої ймовірності;
імовірність того, що похибка вибірки не перевищить допустимого рівня;
обсяг вибірки, який забезпечить потрібну точність результатів для взятої ймовірності.
Кінцева мета будь-якого вибіркового спостереження — поширення його характеристик на генеральну сукупність. Для середньої та частки визначаються межі можливих їх значень у генеральній сукупності з певною ймовірністю — довірчі межі. Якщо метою вибіркового обстеження є визначення обсягових показників генеральної сукупності — обсягів значень ознаки , то вибіркова середня поширюється на генеральну сукупність прямим перерахунком: .
Наприклад, загальна посівна площа під круп’яними культурами в районі становить 2000 га. За даними вибіркового обстеження середня врожайність круп’яних культур — 22,5 ц/га, похибка середньої — 0,5 ц/га. Отже, можливий обсяг валового збору зерна з цієї площі буде не менший за 44 тис. ц [(2000 (22,5 – 0,5)]. Максимальний валовий збір — 46 тис. ц [(2000 (22,5 + 0,5)].
Коли вибіркове спостереження проводиться з метою уточнення результатів суцільного спостереження, застосовується метод коефіцієнтів. Наприклад, після щорічного перепису худоби, що належить населенню, проводиться 10%-ний вибірковий контроль, мета якого — визначити частку недообліку худоби. За даними перепису в районі налічується 10000 корів. У домогосподарствах, які потрапили до контрольної вибірки, за переписом 200 корів, а за даними перевірки — 205. Отже, частка недообліку корів становить . Це і є той коефіцієнт, на який слід скоригувати результати перепису: 10000 ( 1,025 = 10250 корів.
6.2. Вибіркові оцінки середньої та частки
У статистиці використовують два типи оцінок параметрів генеральної сукупності — точкові та інтервальні. Точкова оцінка — це значення параметра за даними вибірки: вибіркова середня та вибіркова частка р. Інтервальною оцінкою називають інтервал значень параметра, розрахований за даними вибірки для певної ймовірності, тобто довірчий інтервал. Чим менший довірчий інтервал, тим точніша вибіркова оцінка.
Межі довірчого інтервалу визначаються на основі точкової оцінки та граничної похибки вибірки :
для середньої
;
для частки
,
де ( — стандартна (середня) похибка вибірки; t — квантиль розподілу ймовірностей (довірче число).
Стандартна похибка вибірки ( є середнім квадратичним відхиленням вибіркових оцінок від значення параметра в генеральній сукупності. Як доведено в теорії вибіркового методу, дисперсія вибіркових середніх у n раз менша від дисперсії ознаки в генеральній сукупності, тобто . Оскільки на практиці генеральна дисперсія ознаки невідома, у розрахунках можна використати вибіркову незсунену оцінку дисперсії: для повторної вибірки , для безповторної . Отже, формули стандартної похибки:
для повторної вибірки
,
для безповторної вибірки
.
Щодо практичного використання наведених формул слід урахувати таке:
а) дисперсія частки , де р і q — частки вибіркової сукупності, яким відповідно властива і невластива ознака;
б) у великих за обсягом сукупностях (30 і більше одиниць) поправка не вносить істотних змін у розрахунки, а тому береться до уваги лише у вибірках з невеликою кількістю елементів;
в) коригуючий множник для безповторної вибірки , тобто при малих величинах (наприклад, для 2 чи 5%-ної вибірки) наближається до 1, а тому розрахунок можна виконувати за формулою для повторної вибірки; при 10%-ній вибірці коригуючий множник становить 0,949, при 20%-ній — 0,894.
Гранична похибка вибірки — це максимально можлива похибка для взятої ймовірності F(x). Довірче число t показує, як співвідносяться гранична та стандартна похибки. Як бачимо з рис. 6.1, з імовірністю 0,683 гранична похибка не вийде за межі стандартної , з імовірністю 0,954 вона не перевищить ( 2(, з імовірністю 0,997 — ( 3(. На практиці найчастіше застосовують імовірність 0,954 (на рис. 6.1 незаштрихована частина площини).

Рис. 6.1. Співвідношення ймовірностей та ширини довірчих меж
З урахуванням сказаного формули граничних похибок середньої та частки записують так:
Повторна вибірка
Безповторна вибірка

Для середньої
;
;

Для частки
;
.


Як видно з формул, розмір граничної похибки залежить:
від варіації ознаки (2;
обсягу вибірки n;
частки вибірки в генеральній сукупності ;
узятого рівня ймовірності, якому відповідає квантиль t.
Чим більша варіація ознаки в генеральній сукупності, тим більша в середньому похибка вибірки. Залежність похибки від обсягу вибіркової сукупності обернено пропорційна. Щоб зменшити похибку вибірки вдвічі, обсяг останньої має зрости в 4 рази. При безповторному доборі похибка буде тим менша, чим більша частка обстеженої сукупності . Очевидно, при суцільному спостереженні похибка репрезентативності відсутня (( = 0).
При малих вибірках (n < 30 ), у розрахунках стандартних похибок використовують вибіркові оцінки дисперсій . Квантилі t визначають за розподілом імовірностей Стьюдента. У табл. 6.3 наведено деякі значення квантилів t розподілу Стьюдента для ймовірності 0,95 і числа ступенів свободи, тобто числа незалежних величин, необхідних для визначення даної характеристики, k = n – 1. При n > 30 квантилі розподілу Стьюдента і нормального розподілу збігаються.
Розглянемо методику вибіркового оцінювання середньої та частки на прикладі обстеження 225 домогосподарств регіону. За результатами 1%-ної вибірки 70% грошового доходу домогосподарства витрачають на харчування. Середньодушові витрати на харчування за місяць становлять 82 грн. при дисперсії 8510.
Визначимо межі середньодушових витрат на харчування з імовірністю 0,954 (t = 2).
Гранична похибка
грн.
Це дає підставу стверджувати з імовірністю 0,954, що середньодушові витрати на харчування в цілому по регіону щонайменше 69,7 грн. і не перевищують 94,3 грн.:
.
Перш ніж визначити граничну похибку частки витрат на харчування, необхідно обчислити її дисперсію:
= 0,7(1 – 0,7) = 0,21.
Гранична похибка
або 6,1%.
Щодо інтервалу можливих значень частки витрат на харчування в генеральній сукупності, то межі його становлять 63,9 і 76,1%:
.
У статистичному аналізі часто постає потреба порівняти похибки вибірки різних ознак або однієї і тієї самої ознаки в різних сукупностях.
Такі порівняння виконують за допомогою відносної похибки, яка показує, на скільки процентів вибіркова оцінка може відхилятися від параметра генеральної сукупності. Відносна стандартна похибка середньої — це коефіцієнт варіації вибіркових середніх:
.
Її розмір можна визначити також на основі коефіцієнта варіації ознаки Vx:
для повторної вибірки
;
для безповторної вибірки
.
Так, у нашому прикладі відносна похибка середньодушових витрат на харчування
.
Такий самий результат дає розрахунок відносної похибки на основі коефіцієнта варіації :
;

Вибіркову похибку частки також слід порівнювати з часткою р. Адже одна і та сама похибка  = 2% для р = 80% є малою, для р = 40% — допустимою, для р = 10% — завеликою. Відносну похибку частки обчислюють за формулою
.
У нашому прикладі відносна похибка частки витрат на харчування становить 4,36%:
,
що значно менше порівняно з похибкою середньодушових витрат на харчування (7,5%).
Отже, відносну похибку можна використати для порівняння вибіркових оцінок різних ознак. На практиці достатнім рівнем точності вважається Іноді використовують граничну відносну похибку, яка враховує ймовірність статистичного висновку .
6.3. Різновиди вибірок
Формування вибірки — не безладний процес. Ця дія виконується за певними правилами. Передусім визначається основа вибірки. У сукупностях, які складаються з «фізичних» елементів, одиниця основи може репрезентувати або окремий елемент сукупності, або певне їх угруповання. Наприклад, вивчається використання комбайнів. Загальна їх кількість N розподілена за М бригадами, кожна з них має Nj комбайнів. Одиницею основи вибірки може бути комбайн або бригада. Відповідно формується вибіркова сукупність: у першому випадку вибирається n комбайнів із загального їх числа N, у другому — m бригад із загального їх числа M.
Найпростішою основою вибірки є перелік елементів генеральної сукупності, пронумерований від 1 до N. Простими вважаються також набори звітів, анкет, карток тощо.
На практиці досліджувані сукупності мають, як правило, не одну, а низку альтернативних основ для вибірки. Наукове обґрунтування та правильний вибір основи — перша передумова забезпечення репрезентативності результатів вибіркового спостереження.
Від основи вибірки залежить спосіб добору елементів сукупності для обстеження. Найчастіше використовують способи добору: простий випадковий, механічний, розшарований (районований), серійний.
Простий випадковий добір провадиться жеребкуванням або за допомогою таблиць випадкових чисел. Це класичний спосіб формування вибіркової сукупності, який передбачає попередню досить складну підготовку до формування вибірки. Для жеребкування на кожну одиницю генеральної сукупності необхідно заготувати відповідну фішку; при використанні таблиць випадкових чисел усі елементи цієї сукупності мають бути пронумеровані. У великих за обсягом сукупностях така робота здебільшого недоцільна, а часом і неможлива. Тому на практиці застосовуються інші різновиди випадкових вибірок.
Механічний добір. Основа вибірки — упорядкована множина елементів сукупності. Добір елементів здійснюється через рівні інтервали. Крок інтервалу обчислюється діленням обсягу сукупності N на передбачений обсяг вибірки n. Початковий елемент вибірки визначається як випадкове число всередині першого інтервалу, другий елемент залежить від початкового числа й кроку інтервалу. Так, для частки вибірки кроком інтервалу є число =, тобто у вибірку має потрапити кожний двадцятий елемент. Якщо початковий елемент — випадкове число 7, то другим елементом буде 7 + 20 = 27, третім — 27 + 20 = 47 і т. д.
Механічна вибірка порівняно з простою випадковою ефективніша, її простіше здійснити. Проте за наявності циклічних коливань значень ознаки, цикл коливань яких збігається з інтервалом, можливий зсув вибіркових оцінок. Похибку механічної вибірки обчислюють за формулою похибки безповторної вибірки.
Вивчаючи безперервні в часі процеси, зокрема технологічні (структури затрат робочого часу, використання виробничого устаткування), проводять моментні спостереження. Суть їх — у періодичній фіксації стану процесу на певні моменти часу, які вибирають за схемою випадкової або механічної вибірки (через певні інтервали часу).
На етапі підготовки моментних спостережень визначають перелік можливих варіантів стану процесу, наприклад перелік причин простоїв устаткування. Під час обстеження певної сукупності одиниць устаткування, скажімо, верстатів, у визначені моменти часу фіксується, працює r-й верстат чи ні (якщо ні, зазначаються причини простою). Припустимо, що в цеху працюють 10 верстатів і за 8-годинну зміну через кожні півгодини проводилась реєстрація використання цих верстатів. Було зроблено 160 записів (2 · 8 · 10), у 144 випадках зазначено, що верстат працював, у 16 — не працював. Частка працюючих верстатів становить 0,9, дисперсія частки — 0,9 ( 0,1 = 0,09. Із імовірністю 0,954 гранична похибка вибірки , або 4,6%. Отже, частка працюючих верстатів за зміну становила не менш як 90 – 4,6 = 85,4%.
Щодо повноти охоплення елементів сукупності, то моментне спостереження суцільне, воно вибіркове впродовж часу, бо охоплює не весь час роботи устаткування, а лише певні моменти. У разі правильної організації моментні обстеження забезпечують досить точні результати швидко і з меншими витратами, ніж при суцільному спостереженні.
Розшарований (районований, типовий) добір — це спосіб формування вибірки з урахуванням структури генеральної сукупності. На відміну від простого випадкового та механічного добору, які проводяться в цілому по генеральній сукупності, розшарований передбачає її попередню структуризацію й незалежний добір елементів у кожній складовій. Обсягом розшарованої вибірки є сума частинних вибірок , тобто , де m — число складових (груп, типових районів тощо).
Похибку розшарованої вибірки обчислюють, використовуючи середню з групових дисперсій . Якщо сформовані групи об’єднують «схожі» елементи, а групові середні величини помітно різні, варіація ознаки в групах буде значно меншою, ніж по сукупності. У такому разі <, а отже, похибка розшарованої вибірки порівняно з простою випадковою чи механічною буде менша:
.
Для того щоб забезпечити більшу точність розшарованої вибірки, слід обґрунтувати ознаку розшарування сукупності, число складових частин m, обсяг частинних вибірок і спосіб добору. Зменшення варіації ознаки при розшаруванні сукупності можливе за умови, що ознака розшарування сукупності корелює з ознакою, характеристики якої оцінюються. Ці ознаки співвідносяться як причина й наслідок.
Відповідно до правила розкладання дисперсій =– або Отже, розшарування сукупності зменшує похибку вибірки на частку (). Чим щільніший зв’язок між ознаками, тим помітніше зменшення похибки. При = 0,50 похибка вибірки зменшується вдвічі, при = 0,66 — утричі.
У практиці вибіркових спостережень застосовують різні способи визначення обсягу вибіркової сукупності n та її складових nj. Найпростіший з них, коли всі m груп подані однаковою кількістю елементів:
.
Проте застосування цього способу обмежене. Якщо чисельності груп у генеральній сукупності Nj дуже різні, може виникнути ситуація, коли nj > Nj.
Найчастіше застосовують пропорційний добір, який передбачає однакове для всіх складових представництво, тобто частки однакові й обсяг частинної вибірки залежить від обсягу відповідної складової сукупності:
.
Оптимальним щодо мінімізації похибки є добір, пропорційний до середнього квадратичного відхилення:
.
Очевидно, що обсяг вибірки залежить від рівня варіації ознаки в окремих складових генеральної сукупності. Однорідні групи подаються меншим числом елементів, неоднорідні — більшим. Відсутність даних про варіацію ускладнює практичну реалізацію такого способу вибірки.
Різновидом розшарованої вибірки є метод квот, коли обсяг частинних вибірок nj визначається завчасно. Цей спосіб поширений при вивченні громадської думки, ринку тощо. Так, при вивченні громадської думки тому, хто має брати інтерв’ю, установлюються квоти, наприклад обстежити двох фермерів-чоловіків віком 30—40 років, трьох мешканців міста віком 20—30 років і т. ін. В який спосіб «заповнити квоти», він вирішує сам. Метод квот не гарантує незсуненості вибіркових оцінок.
Серійна вибірка. Одиниця основи вибірки — серія елементів. Серії складаються з одиниць, які пов’язані або територіально (райони, селища), або організаційно (фірми, акціонерні товариства). Вибіркова сукупність серій формується за схемами механічної або простої випадкової вибірки. Дібрана серія розглядається як одне ціле, обстеженню підлягають усі без винятку елементи серії. При обчисленні похибки вибірки враховується міжсерійна варіація:
,
де (2 — міжсерійна дисперсія; m та М — число серій відповідно у вибірці та генеральній сукупності.
Похибка серійної вибірки буде меншою порівняно з похибкою простої випадкової чи механічної вибірки в тому разі, якщо серії більш-менш однорідні й варіація серійних середніх незначна. Зростання міжсерійної варіації призводить до збільшення похибки вибірки.
Використання того чи іншого способу формування вибіркової сукупності залежить від мети вибіркового обстеження, можливостей його організації та проведення. Іноді поєднуються різні способи добору: механічний і серійний, розшарований і механічний, випадковий і серійний.
Таке поєднання можливе в рамках багатоступеневої вибірки. Ступенів може бути два, три й більше. Кожний із них має свою, відмінну від інших основу вибірки. Відповідно поділяються й одиниці вибірки: першого ступеня, другого і т. ін. Повнота охоплення основи й схема добору одиниць на різних ступенях різняться.
Наприклад, сукупність містить K одиниць першого ступеня, які складаються з M одиниць другого ступеня, ті, у свою чергу, об’єднують Nj одиниць третього ступеня. Саме така триступенева вибірка застосовується при організації обстеження домогосподарств. Наприклад, у сільській місцевості одиниці першого ступеня — це райони області; одиниці другого ступеня — селища; одиниці третього ступеня — домогосподарства.
Отже, вибір елементів для безпосереднього обстеження здійснюється на останньому, третьому ступені формування вибіркової сукупності. Частка її відносно до генеральної сукупності залежить від часток вибірки на всіх ступенях. Якщо припустити, що до вибірки потрапив один з десяти районів (d1 = 0,10), у цих районах відібране кожне п’яте селище (d2 = 0,20), а у відібраних селищах обстежується 4% домогосподарств (d3 = 0,04), то частка вибіркової сукупності в генеральній становить:
,
тобто обстеженню підлягає 0,08% домогосподарств.
Багатоступенева вибірка значно зменшує витрати на обстеження й порівняно з іншими вибірками більш ефективна.
Якщо обстежують сукупність за двома й більше ознаками, які різняться варіацією, ефективною є багатофазна вибірка. Суть її в тому, що для різних ознак формуються вибіркові сукупності різного обсягу. На відміну від багатоступеневої вибірки багатофазна використовує для всіх ознак одну й ту саму основу вибірки, проте програма обстеження різна.
Вибіркові сукупності формуються поетапно — фазами. З генеральної сукупності утворюється первинна вибірка, а з первинної — підвибірка і т. д. На кожній наступній фазі обсяг підвибірки зменшується, а програма обстеження розширюється. Вибіркові оцінки кожної фази використовуються як додаткова інформація на наступних фазах, що підвищує точність результатів вибіркового обстеження.
При організації багатофазної вибірки можливі комбінації різних способів і видів вибірки. Багатофазна вибірка поєднується з багатоступеневою, а також із суцільним спостереженням.
6.4. Визначення обсягу вибірки
У процесі проектування вибіркових спостережень визначають мінімально достатній обсяг вибірки, при якому вибіркові оцінки репрезентували б основні властивості генеральної сукупності. Занадто великий обсяг вибірки потребує зайвих витрат, а занадто малий призведе до збільшення похибки репрезентативності. Теорія вибіркового методу дає змогу науково обґрунтувати достатній обсяг вибірки.
Згідно з формулою граничної похибки вибірки обсяг вибірки
,
тобто залежить від ступеня однорідності генеральної сукупності, імовірності, з якою гарантується результат, і необхідної точності вибіркової оцінки. Практичне використання цієї формули ускладнюється через відсутність оцінки варіації.
Як правило, використовують оцінки (2 за аналогією, тобто оцінки, отримані в попередніх або аналогічних обстеженнях. Наприклад, на лісовому масиві в 400 га визначається загальний запас деревини. Пробні ділянки по 0,1 га. За даними попередніх обстежень середнє квадратичне відхилення виходу деревини з 0,1 га становить 3 м3. Скільки пробних ділянок необхідно обстежити, аби похибка вибірки з імовірністю 0,954 (для якої t = 2 ) не перевищила 1 м3?
Достатній обсяг вибірки пробних ділянок
.
Якщо аналогічні обстеження не проводились або в генеральній сукупності відбулися істотні зміни, точнішу характеристику варіації дають пробні обстеження. Коли відомі межі варіації ознаки, можна визначити, скориставшись коефіцієнтами Р. Пірсона (табл. 5.5).
Для альтернативної ознаки, коли немає жодної інформації про структуру сукупності, застосовують максимальне значення дисперсії (2 = 0,25 (див. 5.5).
Коли розрахований обсяг вибіркової сукупності n перевищує 5% обсягу генеральної сукупності N, його коригують на «безповторність вибірки». Скоригований обсяг вибірки
.
Щодо точності вибіркового обстеження, то доцільно контролювати відносну граничну похибку V(. У такому разі мірою варіації ознаки є коефіцієнт варіації Vx і тоді:
.
Наприклад, проектується вибіркове обстеження підприємств малого бізнесу в галузі інформаційно-обчислювального обслуговуваня (N = 125) з метою визначення середньої тривалості обороту дебіторської заборгованості. За аналогічними обстеженнями в інших галузях діяльності, середня тривалість обороту становить 72 дні, квадратичний коефіцієнт варіації Vx = 20%. Мінімально необхідний обсяг вибірки, при якому з імовірністю 0,954 гарантується відносна похибка вибірки в обсязі не більш як 8%:
.
Скоригований на скінченність сукупності обсяг вибірки менший
.
Необхідний обсяг вибірки можна розрахувати також на основі відносної похибки вибірки для частки:
.
Очевидно, чим більша частка р, тим менший обсяг вибірки забезпечить необхідну точність результатів обстеження, і навпаки: для малих значень р обсяг вибірки збільшується.
У табл. 6.1 наведено обсяги вибірки, які забезпечують точність результатів обстеження малопоширених явищ з відносною стандартною похибкою, меншою за 10%.
Таблиця 6.1
ДОСТАТНІЙ ОБСЯГ ВИБІРКИДЛЯ ВИВЧЕННЯ МАЛОПОШИРЕНИХ ЯВИЩ
р
q / р
n при V(10%

0,20
4,0
400

0,15
5,7
570

0,12
7,3
730

0,10
9,0
900

0,09
10,1
1010

0,08
11,5
1150

У практиці вибіркових обстежень одночасно вивчаються кілька ознак. Якщо бажаний ступінь точності визначати для кожної ознаки окремо, то результатом розрахунків стане низка значень обсягу вибірки. З метою їх узгодження використовуть або максимальний обсяг n (і тоді решта ознак оцінюється «надто точно»), або обсяг головної ознаки.
6.5. Статистична перевірка гіпотез
Статистична гіпотеза — це певне припущення щодо властивостей генеральної сукупності, яке можна перевірити, спираючись на результати вибіркового спостереження. Суть перевірки гіпотез полягає в тому, щоб визначити, узгоджуються чи ні результати вибірки з гіпотезою, випадковими чи невипадковими є розбіжності між гіпотезою і даними вибірки.
Найчастіше гіпотеза, яку належить перевірити, формулюється як відсутність розбіжності (нульова розбіжність) між невідомим параметром генеральної сукупності G і заданою величиною А, а тому її позначають Н0. Зміст гіпотези записують після двокрапки, наприклад Н0: G = A.
Кожній нульовій гіпотезі протиставляють альтернативну Нa. При формулюванні Нa враховується вагомість відхилень (G – A): для додатних відхилень Нa( G > А, для від’ємних — Нa: G < A, для тих і інших — Нa: G ( A.
Якщо вибіркові дані cуперечать гіпотезі Н0, вона відхиляється, коли ці дані узгоджуються з гіпотезею Н0, вона не відхиляється. Спираючись на результати вибірки, статистична перевірка гіпотез неминуче пов’язана з ризиком прийняття помилкового рішення: ризик І — відхилення правильної нульової гіпотези, ризик ІІ — невідхилення нульової гіпотези, коли насправді правильною є альтернативна. Ці ризики конкуруючі, і зменшення ймовірності ( одного зумовлює збільшення ймовірності ( іншого. Оскільки уникнути ризиків неможливо, а наслідки їх, як правило, різновагомі, то в кожному конкретному дослідженні прагнуть мінімізувати той ризик, який пов’язаний з більшими втра-тами. Імовірності ризиків наведено в табл. 6.2.
Таблиця 6.2
ІМОВІРНІСТЬ РИЗИКІВ ПОМИЛКОВИХ РІШЕНЬ ПРИ ПЕРЕВІРЦІ ГІПОТЕЗ
Правильна гіпотеза
Прийнята гіпотеза


Н0
Нa

Н0
1 – (
(

Нa
(
1 – (

Правило, за яким гіпотеза Н0 відхиляється або не відхиляється (приймається), називається статистичним критерієм. Математичною основою будь-якого критерію є статистична характеристика Z, значення якої визначається за даними вибірки, а закон розподілу відомий. Кожне значення характеристики Z має певну ймовірність F (Z). Якщо вибіркове значення Z малоймовірне, гіпотеза Н0 відхиляється.
Межу малоймовірності Z називають рівнем істотності (. Очевидно, що ( — це ймовірність ризику І, а тому залежно від змісту гіпотези Н0 і наслідків її відхилення рівень істотності визначають у кожному конкретному дослідженні. Зазвичай вибирають один із рівнів (, для яких табульовані значення статистичних характеристик критеріїв. Це ( = 0,10; 0,05; 0,025; 0,01.
Значення статистичної характеристики критерія Z1 – ( поділяє множину вибіркових значень Z на дві частини: а) область допустимих значень і б) критичну область. Якщо вибіркове значення Z потрапляє у критичну область, гіпотеза Н0 відхиляється, якщо в область допустимих значень — не відхиляється. Саме тому значення Z1 – ( називають критичним.
Залежно від того, як сформульована альтернативна гіпотеза, критична область може бути односторонньою (ліво- чи правосторонньою) або двосторонньою (рис. 6.2).

Рис. 6.2. Лівостороння та двостороння критичні області
Порядок перевірки статистичних гіпотез розглянемо на прикладі співвідношення середніх двох сукупностей. Припустимо, ведеться вибірковий контроль тривалості служби деталей одного виду, виготовлених за різними технологіями. Контролю піддано 5 деталей, виготовлених за старою технологією, і 4 — за новою, тобто n1 = 5, n2 = 4. Вибіркові оцінки середніх і дисперсій відповідно становили: = 580 год при = 308; = 612 год при = 329.
Різниця між середніми ( – ) = (612 – 580) = 32 год.
Потрібно визначити, чи істотна ця різниця, тобто чи зумовлена вона відмінностями технологій, чи випадкова. Нульова гіпотеза формулюється на припущенні, що відхилення середніх випадкові Н0: . Альтернативна гіпотеза передбачає, що нова технологія збільшує тривалість служби деталі: На: . За такого формулювання Нa виконується одностороння (правостороння) перевірка.
Статистичною характеристикою гіпотези Н0: є нормоване відхилення середніх
,
яке підпорядковане розподілу Стьюдента з числом ступенів свободи k  =  n1 + n2 – 2.
У нашому прикладі k = 5 + 4 – 2 = 7; оцінка дисперсії розраховується як середня арифметична зважена з дисперсій, що характеризують варіацію тривалості служби деталей за кожною технологією
;
значення t-критерію
.
Перевіримо гіпотезу Н0 проти Нa з рівнем істотності ( = 0,05. За даними табл. 6.3 критичне значення t0,95 (7) = 1,89, що менше за фактичне (t = 2,37). Отже, нульова гіпотеза Н0: відхиляється, і з імовірністю 0,95 можна стверджувати, що нова технологія збільшує термін служби деталей.
У разі двосторонньої перевірки гіпотези, коли Нa:, використовують критичне значення для , наприклад при ( = 0,05 це буде t0,975 (k).
Отже, статистична гіпотеза перевіряється в такій послідовності:
а) формулюють нульову Н0 та альтернативну Нa гіпотези;
б) вибирають статистичну характеристику Z, за значеннями якої перевіряють правильність гіпотези Н0;
в) визначають рівень істотності ( і відповідне йому критичне значення Z1 – (; залежно від формулювання гіпотез Н0 i Нa критична область може бути одно- або двосторонньою;
г) за результатами вибірки розраховують фактичне (вибіркове) значення статистичної характеристики Z, яке порівнюють з критичним Z1 – (; якщо Z > Z1 – (, гіпотеза Н0 відхиляється, при Z < Z1 – ( — не відхиляється.
Таблиця 6.3
ЗНАЧЕННЯ КВАНТИЛІВ t РОЗПОДІЛУ СТЬЮДЕНТА ДЛЯ ( = 0,05
Число ступенів свободи
Для критерію


двостороннього
одностороннього

4
2,78
2,13

5
2,57
2,01

6
2,45
1,94

7
2,38
1,89

8
2,31
1,86

10
2,23
1,81

15
2,13
1,75

20
2,09
1,73

30
2,04
1,70


1,96
1,64


Процедура перевірки гіпотез використовується при порівнянні вибіркових характеристик (середньої, частки, дисперсії) з відповідними нормативами, порівнянні характеристик двох вибіркових сукупностей, оцінюванні істотності розбіжностей двох розподілів, у дисперсійному та кореляційному аналізі.
ЗАВДАННЯ ДЛЯ САМОКОНТРОЛЮ
1. У чому суть вибіркового спостереження? Які його переваги порівняно з іншими видами спостереження?
2. Що означає репрезентативність вибірки? За яких умов вибірка буде репрезентативною?
3. Чому принцип випадковості добору є визначальним при формуванні вибіркової сукупності? Які способи добору забезпечують додержання цього принципу?
4. Чим відрізняється випадкова похибка репрезентативності від систематичної? Чи можна її уникнути?
5. Як визначити розмір похибки вибірки? Чим відрізняється гранична похибка вибірки від стандартної (середньої)?
6. З метою визначення затрат часу на виготовлення деталі проведено хронометраж роботи випадково дібраних 25 робітників. За даними вибірки середні затрати часу становили 15 хв при ( = 2 хв. Обчисліть похибку вибірки для середніх затрат часу і визначіть:
а) Як зміниться похибка вибірки, якщо обсяг вибіркової сукупності збільшиться в 2,25 раза?
б) Як позначиться на похибці вибірки збільшення дисперсії в 1,6 раза?
в) Як зміниться похибка вибірки, якщо зі збільшенням дисперсії в 1,21 раза обсяг вибіркової сукупності збільшиться в 2,25 раза?
г) Як зміниться похибка вибірки, якщо виконати 19%-ний механічний добір?
д) Як зміниться похибка вибірки, якщо виконати розшарований добір (виокремити групи за стажем роботи) і міжгрупова дисперсія витрат часу становитиме 36% загальної?
7. Хімічний аналіз 25 партій молока дав такі результати: а) середній показник кислотності (у градусах Тернера) — 20( при дисперсії 3,24; б) частка партій молока, що відповідають стандарту кислотності (не більш як 21() — 80%.
Визначіть похибки вибірки для середньої і частки з імовірністю 0,954;
Скільки партій молока необхідно перевірити, щоб похибки вибірки для середньої і частки з тією самою ймовірністю зменшити вдвічі?
8. Урожайність нового сорту озимої пшениці, розміщеного на 10 дослідних ділянках, становила 47 ц/га при дисперсії 1,44.
1) Визначіть довірчий інтервал для середньої врожайності з імовірністю 0,95.
2) Чи узгоджуються вибіркові дані з припущенням, що врожайність нового сорту озимої пшениці не менша за 46 ц/га?
9. За даними 1%-ного вибіркового обстеження 100 домогосподарств маємо:
Характеристики домогосподарства
Середній рівень
Коефіцієнт варіації, %

Середня кількість працюючих осіб
2,1
45

Місячний середньодушовий дохід, грн.
180
52


Із імовірністю 0,954 визначте відносні похибки вибірки для зазначених показників, порівняйте похибки та зробіть висновки щодо їх розміру.
10. Проектується обстеження посівів соняшнику з метою визначення втрат насіння через несвоєчасне збирання врожаю. Скільки необхідно обстежити пробних ділянок, щоб з імовірністю 0,954 відносна похибка середніх втрат з 1 га не перевищила 10% ? За даними минулорічних обстежень квадратичний коефіцієнт варіації втрат насіння становив 20%.
11. За даними пробного вибіркового обстеження роботи ковальсько-пресового обладнання (обсяг вибірки — 16) у першу зміну без простоїв працювало 80% машин. Яка має бути вибіркова сукупність, щоб похибка вибірки для частки працюючого без простоїв обладнання з імовірністю 0,954 не перевищила 5%?
12. Скільки треба опитати респондентів, оцінюючи якість готельного обслуговування (задовольняє / не задовольняє), щоб гранична похибка вибірки часток з імовірністю 0,954 не перевищила 5%?
13. Вивчається ефективність нової методики вивчення іноземних мов порівняно з традиційною. Сформулюйте нульову й альтернативну гіпотези.
14. Як перевірити справджуваність нульової гіпотези? Який рівень істотності доцільно використати?
15. Яка аналітична функція покладається на статистичний критерій?
16. Що таке критична область? Який висновок ви зробите, якщо статистична характеристика критерію потрапить у критичну область?