СТАТИСТИЧЕСКИЕ МЕТОДЫ ДЛЯ АНАЛИЗА ЗАКОНОМЕРНОСТЕЙ В ЭМПИРИЧЕСКИХ ДАННЫХ

Введение
ЗАДАНИЕ:
Анализ продуктов питания
Лаборатория производит анализ продуктов, которые обрабатываются при определенной температуре X 1 (t, °С), и в которые добавляются для увеличения срока годности определенные консерванты Х 2 (мг). В готовом продукте может содержаться некоторое количество нежелательных веществ Y (в долях к общей массе). Х 1 и Х 2 даны в относительных единицах (абсолютные значения t Î [60; 80]; консервант Х 2 Î [0,5; 1]), Y - в абсолютных
Необходимо определить зависимость Y = f(Х 1 ,Х 2 ) и установить значения Х 1 и Х 2 , которые обеспечивают номинал Y ном. =0,009; 0,010; 0,011; 0,01 г. Определить ошибку e , которая соответствует установленному номиналу Y ном
Исходные данные, соответствующие конкретному варианту:
№
X 1i
Х 2i
Y i

1.
3
6
0,016

2.
3
6
0,015

3.
3
6
0,014

4.
6
4
0,014

5.
4
7
0,013

6.
4
7
0,013

7.
9
1
0,011

8.
9
1
0,012

9.
1
10
0,012

10.
1
10
0,017

11.
1
10
0,015

12.
9
2
0,009

13.
9
2
0,010

14.
2
9
0,014

15.
2
9
0,018

Описание задачи статистического анализа .
выборочное среднее:

выборочная дисперсия:

среднеквадратичное отклонение:

мат. ожидание произведения для вычисления коэф. ковариации:
Оценка параметров регрессии fr(x)=a+b*x

Уравнение линейной регрессии:
коэффициент корреляции:
отклонения фактических значений от теоретических (ошибка):

Расчетная часть
Вычисленные характеристики заданных факторов:
Фактор
N
Mxy
Mx
Dx
s x
a
b, 10 -4
rxy

X1
15
0.054
4.4
9.307
3.051
0.016
-6.032
-0.761

X2
15
0.086
6
10.267
3.204
0.01
5.13
0.68

Выявление линейной связи Y от X1 и Y от Х2 Фактор Х1:

Фактор Х2:

Вывод: вариационный ряд случайной ошибки: видно, что нормальный закон распределения искажен, что свидетельствует о неадекватности выявленной зависимости
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем t-критерии Стьюдента и доверительный интервал каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
tb=b/mb; ta=a/ma; trxy=rxy/mrxy; где mb,ma,mrxy - величины случайной ошибки
Выдвигаем гипотезу H0 о статистически незначимом отличии параметров линейной регрессии от нуля: a=b=rxy = 0.
Определяем tтабл - это квантиль уровня 1-a/2 распределения Стьюдента с параметром n-m-1, где m - число параметров функции регресии при x

Определяем случайные ошибки

Фактичекие t-статистики

Фактор
Soct, 10 -3
Ma, 10 -4
mb, 10 -4
Mrxy
ta
tb
trxy
rxy 2

Х1
1.686
7.64
1.427
0.18
21.189
4.227
4.227
0.579

Х2
1.906
1.04
1.536
0.203
10.01
3.341
3.341
0.462

Коэффициент детерминации: rxy 2
Так как фактические t-статистики превосходят tтабл = 2.16 , то гипотеза H0 отклоняется, т.е. a,b,rxy неслучайно отличаются от нуля и статистически значимы на уровне a =0.05

( фактор Х1)
В среднем расчетные значения функции регрессии отклоняются от фактических на 9.6%. Качество построенной модели оценивается как хорошее(менее 10%)
(фактор Х2)
В среднем расчетные значения функции регрессии отклоняются от фактических на 11.5%. Качество построенной модели оценивается как плохое(более 8%)
Проверим гипотезу о статистической незначимости уравнения регрессии показателя тесноты связи (критерий Фишера).
Выдвигаем гипотезу H0 о статистической незначимости уравнения регрессии показателя тесноты связи
Критериальная статистика: Ffakt=(n-m-1)*((rxy)2/(1-(rxy)2)

Критическая область: Ftabl<Ffakt, где Ftabl- максимально возможное значение критерия F под влиянием случайных факторов при данных степенях свободы и уровне значимости

Фактор
Ffakt
Ftabl

Х1
17.869
4.667

Х2
11.16
4.667

Вывод: так как < , то это указывает на необходимость отклонить принятие гипотезы H0 о случайной природе выявленной зависимости и статистической незначимости при a=0.05 уравнения регрессии и показателя тесноты связи
Расчет доверительного интервала для a,b. Для этого определим предельную ошибку для каждого параметра функции регрессии.

Доверительные интервалы параметров функции регрессии

Фактор
D a,10 -3
D b,10 -3
amin(amax)
bmin(bmax) 10 -4

Х1
1.65
3.083
0.015(0.018)
-9.114(-2.949)

Х2
2.256
3.317
0.0082(0.013)
1.812(8.447)

Анализ верхней и нижней границ доверительных интервалов приводят к выводу о том, что с вероятностью P = 1-a =0.95 параметры ,находясь в указанных границах, не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличаются от нуля

Фактор Х1 Фактор Х2

Полученные оценки уравнения регрессии позволяют использовать его для прогноза

прогнозное значение фактора

прогнозное значение результата
Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выборка
xp
yp
myp, 10 -3
D yp, 10 -3
ypmin(ypmax), 10 -3

Х1
4.62
0.013
1.741
3.762
9.638(17)

Х2
6.3
0.014
1.969
4.253
9.434(18)

Анализ полученных результатов.
По полученным данным можно сделать вывод, что две величины X1,X2 влияют на Y, т.к. на данном уровне значимости коэффициенты корреляции не равны нулю, что подтверждает гипотеза о параметрах a,b,rxy. Про зависимость Y от Х1 можно сказать, что Y зависит от X1 линейно. Этот факт подтверждается значениями признаков: приемлемой ошибкой аппроксимации , близким к нулю значением коэффициента при х в функции регрессии и отношением величины этого коэффициента к величины его доверительного интервала. Этот же вывод можно сделать по графическим представлениям зависимостей. Что касается зависимости Y от Х2, то можно сказать, что Y зависит от X2 линейно. Этот факт подтверждается значениями тех же признаков, что и для описанных выше зависимостей
Из-за допущенной отрицательной ошибки D нет значений X1 и X2, которые удовлетворяют заданному номиналу 0.009