Профессиональная пескоструйная чистка зубов.

Требуется:
1) построить матрицу коэффициентов парной корреляции Y(t) с X1(t) и X2(t) и выбрать фактор, наиболее тесно связанный с зависимой переменной Y(t);
2) построить линейную однопараметрическую модель регрессии Y(t) = a0 + a1 * Х(t);
3) оценить качество построенной модели, исследовав ее адекватность и точность;
4) для модели регрессии рассчитать коэффициент эластичности и ?-коэффициент;
5) построить точечный и интервальный прогнозы на два шага вперед по модели регрессии (для вероятности Р = 70% использовать коэффициент ? = 1,05). Прогнозные оценки фактора X(t) на два шага вперед получить на основе среднего прироста от фактически достигнутого уровня).
Решение:
1) Матрица коэффициентов парной корреляции.
Выборочный парный линейный коэффициент корреляции рассчитывается по формуле
ry,x = ?nt=1 ( Yt - yср ) * (Xt - xср ) / SQR[ ?nt=1 ( Yt - yср ) 2 * ?nt=1 (Xt - xср ) 2 ]
Промежуточные результаты расчетов для коэффициента ry,x1 приведены в таблице
Таблица
Тогда
ry,x1 = 44,46 / SQR[ 117,36 *528,25] = 44,46 / 248,99= 0,18
Промежуточные результаты расчетов для коэффициента ry,x2 приведены в таблице
Таблица
Тогда
ry,x2 = -70,98 / SQR[ 117,36 * 171,61 ] = -70,98 / 141,92 = -0,5
Для построения полной матрицы коэффициентов парной корреляции необходимо вычислить коэффициент rx1,x2 (таблица )
Таблица
Тогда
rx1,x2 = 27,17 / SQR[528,25* 171,61 ] = 27,17 /301,09 =0,09
И матрица коэффициентов парной корреляции, построенная по вычисленным значениям, имеет вид:
Вывод: среди двух факторов X1(t) и X2(t) наиболее тесно связанным с зависимой переменной Y(t) является фактор X2(t), так как в абсолютном выражении коэффициент ry,x1 наиболее близок к 1. Отрицательное значение коэффициента корреляции означает обратную (разнонаправленную) линейную связь между Y(t) и X2(t).
2) Линейная однопараметрическая (однофакторная) модель регрессии.
Так как модель Y(t) = a0 + a1 * X(t) линейна относительно параметров a0 и a1 , то для их оценки применим метод наименьших квадратов (традиционный):
a0 = yср – a1 * xср
a1 = ?nt=1 ( Yt - yср ) * ( Xt - xср ) / ?nt=1 (Xt - xср ) 2
yср = ( ?nt=1 Yt ) / n
xср = ( ?nt=1 Xt ) / n
где: yср, xср – средние значения переменных;
Yt, Xt – текущие значения переменных в момент наблюдения t;
n – длина (количество уровней) ряда наблюдений;
?nt=1 – операция суммирования значений уровней с номером t в диапазоне от 1 до n.
Промежуточные результаты расчетов для зависимой переменной Y(t) и фактора X1(t), приведены в таблице
Таблица
Тогда
a1 = 170,2 / 528.25= 0,32 a0 = 29,6 – 0,32 * 43.5 = 15,68
Таким образом, искомая линейная модель имеет вид:
<Y(t)> =15,68– 0,32 * X1(t)
где: <Y(t)> - расчетное значение зависимой переменной Y.
3) Оценка адекватности и точности линейной однофакторной модели регрессии.
Для оценки адекватности и точности линейной однофакторной модели регрессии необходимо убедиться в следующем:
- в адекватности вида уравнения модели;
- в статистической значимости модели регрессии в целом (F-критерий Фишера);
- в статистической значимости коэффициентов уравнения регрессии и коэффициента корреляции;
- в точности модели (в качестве меры точности используют оценки значений ошибок).
3.1. Оценка адекватности уравнения модели
Уравнение модели является адекватным, если:
- математическое ожидание значений остаточного ряда равно или близко нулю (t-критерий Стьюдента);
- значения остаточного ряда случайны (критерий пиков);
- значения остаточного ряда независимы (d-критерий Дарбина-Уотсона);
- значения остаточного ряда подчинены нормальному закону (R/S-критерий).
а) t-критерий Стьюдента:
Проверка равенства математического ожидания уровней ряда остатков нулю осуществляется в ходе проверки статистической нулевой гипотезы Н0 : | ?ср | = 0. С этой целью строится t-статистика
t = | ?ср | * SQR[ n ] / S?
S? = SQR[ n * ?nt=1 ?t2 – ( ?nt=1 ?t ) 2 / ( n * ( n – 1 )) ]
где: ?ср – среднеарифметическое значение уровней ряда остатков
?t – текущие значения уровней ряда остатков;
n – длина (количество уровней) ряда;
?nt=1 – операция суммирования значений уровней с номером t в диапазоне от 1 до n;
SQR[ ] – операция извлечения квадратного корня.
Если рассчитанное значение t < tтабл , то гипотеза Н0 принимается.
Промежуточные результаты расчетов, проведенных для t-критерия Стьюдента, а также остальных критериев адекватности (рассчитанных в порядке аналогичном описанному в Задании I), приведены в таблице
Таблица
S? = SQR[ 9 * 48,73 – ( 0,56 ) 2 / ( 9 * ( 9 – 1 )) ] = SQR[438,57 – 0,3136/ 72] = 20,94
t = | 0,56 | * SQR[ 9 ] / 20,94 = 0,08
Так как рассчитанное значение t близко к нулю и меньше табличного, напримерtтабл (1-?)=0,9 m=7 = 1, 8946, то гипотеза о равенстве нулю математического ожидания значений остаточного ряда принимается.
б) критерий пиков:
ркр = 2/3 * ( n – 2) – 1,96 * SQR[(16 * n – 29) / 90]
Подставив значение n = 9, получим ркр = 2,4511. Так как суммарное количество поворотных точек больше критического значения, то гипотеза о случайности остаточной компоненты принимается.
в) d-критерий Дарбина-Уотсона:
d = ?nt=2 ( ?t - ?t-1 ) 2 / ?nt=1 ?t 2 = 128,93/ 48,73 = 2,65
Так как 2 < d < 4, вычисляем
d` = 4 - d = 1,35
Вычисленное значение d` = 1,35 попадает в зону определенности и модель считается адекватной процессу по данному критерию.
г) R/S-критерий:
R/S = ( ?max – ?min ) / S?
S? = SQR[ ?nt=1 ( ?t - ?ср ) 2 / ( n – 1 ) ]
?ср = ( ?nt=1 ?t ) / n
Подставив значения из таблицы 8: ?max = 3,88 ?min = -3,68 ?ср = 0,56 для n = 9 получим
S? = SQR[ 128,93 / 8 ] = 4,0145 ? 4,01
R/S = (3.88 – (-3,68)) / 4,01 = 1,88
Так как значение R/S-критерия попадает в интервал между критическими уровнями 1,7 и 3,7 – то гипотеза о нормальном распределении ряда остатков принимается.
3.2. Статистическая значимость модели регрессии в целом (F-критерий Фишера)
F-критерий (F-отношение) Фишера применяется для установления истинности статистической гипотезы о том, что фактор регрессии X(t) действительно влияет на зависимую переменную Y(t) или, точнее, действительно ли часть дисперсии зависимой переменной Y(t) объясняется влиянием фактора X(t). F-отношение Фишера рассчитывается по формуле
R2 / k
F = ------------------------------------
( 1 – R2 ) / ( n – k – 1 )
где: R2 – коэффициент детерминации;
k – число параметров при переменных, включенных в модель;
n – длина (количество уровней) ряда.
Используя введенные ранее обозначения, коэффициент детерминации можно записать в виде
R2 = ?nt=1 ( <Y(t)> – yср ) 2 / ?nt=1 ( уt – yср ) 2
однако, для однофакторной модели значение R совпадает с ry,x1 , рассчитанном в первом пункте задания. Тогда, подставив значения R2 = r2y,x1 = (0,18) 2 = 0,03 при k = 1 (линейная однофакторная модель) и n = 9, получим
F = 0,03 / [ ( 1 – 0,03) / ( 9 – 1 –1 ) ] = 0,03 / 0,14 = 0,21
Табличное значение критерия Фишера при ? = 0,05 и при степенях свободы k1 =k=1 и k2 = n – k – 1 = 7
Fтабл = 5,59
Так как расчетное значение F > Fтабл , то модель считается значимой, при этом коэффициент детерминации R2 показывает долю вариации результативного признака под воздействием изучаемого фактора, т.е. в данном случае ~81% вариации зависимой переменной Y учтено в модели и обусловлено влиянием включенного фактора X1(t).
3.3. Статистическая значимость коэффициентов регрессии и корреляции
Оценка значимости коэффициентов регрессии и корреляции проводится с помощьюt-критерия Стьюдента путем сопоставления значений коэффициентов с величиной случайной ошибки m
t a1 = a1 / m a1 t a0 = a0 / m a0 t r = r / m r
где
?nt=1 ( Yt –<Y(t)> ) 2 / ( n – 2 )
m a1 = SQR [ ---------------------------------------------- ]
?nt=1 ( Xt – xср ) 2
?nt=1 ( Yt –<Y(t)> ) 2 * ?nt=1 Xt 2
m a0 = SQR [ ---------------------------------------- ]
( n – 2 ) * n * ?nt=1 ( Xt – xср ) 2
1 – r xy 2
m r = SQR [ ----------------------- ]
n – 2
Промежуточные результаты вычислений приведены в таблице
Таблица
Тогда при n = 9
m a1 = SQR[48,73/ ( 9 – 2 ) /528,25] = 0,12
m a0 = SQR[48,73/ ( 9 – 2 ) * 17602/ 9 /528,25] = 5,08
m r = SQR[ ( 1 – 0,03 ) / ( 9 – 2 ) ] = 0,1
и значения t-статистик (по модулю)
t a1 = 0,32 / 0,12 = 2,67
t a0 = 15,68/ 5,08=3.09
t r = 0,18 / 0,1 = 1,8
Табличное значение t-критерия Стьюдента при ? = 0,1 и числе степеней свободы n – 2 = 7 составит 1,8946. Так как все фактические значения t-статистик превышают табличное значение, то коэффициенты регрессии и корреляции статистически значимы.
3.4. Оценка точности модели
В качестве меры точности модели регрессии применяют несмещенную оценку дисперсии остаточной компоненты, т. е. части дисперсии фактического явления, “не объясненную” включенными в модель факторами. Стандартная ошибка оценки определяется по формуле
S<Y(t)> = SQR[ ?nt=1 ( Yt - <Y(t)> ) 2 / ( n – k – 1 ) ]
где: k – количество факторов, включенных в модель ( в данном случае k=1 );
n – количество уровней ряда.
Из таблицы видно, что ?nt=1 ( Yt - <Y(t)> ) 2 = 48,73
Тогда
S<Y(t)> = SQR[48,73 / ( 9 – 2 )] = 6,96.
Средняя относительная ошибка аппроксимации (по модулю), т.е. среднее отклонение расчетных значений от фактических, определяется по формуле
Еотн = ( ?nt=1 | ( Yt - <Y(t)> ) / Yt | ) / n * 100%
Промежуточные расчетные данные приведены в таблице 10.
Таблица 10
Окончательно: Еотн = 0,486 / 9 * 100% = 5,4%
Так как Еотн < 7%, то модель считается точной.
4) Коэффициент эластичности и ?-коэффициент.
Коэффициент эластичности (т.е. коэффициент, показывающий на сколько процентов изменится результат, если фактор изменится на 1%) в общем виде определяется как
x
Э = ??(x) * ------
y
где: ??(x) – первая производная функции y = ?(x).
Так как для линейной функции коэффициент эластичности зависит от значения фактора Х, то воспользуемся формулой среднего коэффициента эластичности
x ср
Э ср = а1 * ---------------------
а0 + а1 * х ср
Подставив вычисленные ранее значения, получим
Э ср = 0,32* 43.5/ (15,68+0,32 *43.5) = 0,47 %
Стандартизованный ?-коэффициент линейной регрессии определяется из общего уравнения множественной регрессии в стандартизованном масштабе
t y = ? 1 * t x1 + ? 2 * t x2 + … + ? N * t xN
где: t y = ( y - y ср ) / ? y , t Xj = ( x j - x j ср ) / ? Xj - стандартизованные переменные;
? j - стандартизованные коэффициенты регрессии, определяемые из системы уравнений
r y x1 = ? 1 + ? 2 * r x2 x1 + … + ? N * r xN x1
r y x2 = ? 1 * r x2 x1 + ? 2 + … + ? N * r xN x1
………………………………………………………….
r y xN = ? 1 * r xN x1 + ? 2 * r xN x2 + … + ? N
где: r y Xj – парные коэффициенты корреляции.
Для однопараметрической (однофакторной) линейной модели регрессии система уравнений сводится к тождеству
r y x1 = ? 1
отсюда значение ?-коэффициента линейной однофакторной регрессии: ? 1 = 0,18.

5) Точечный и интервальный прогнозы.
Прогнозируемое точечное значение переменной Y(t) для периода упреждения на k = 2 шага вперед получается при подстановке в уравнение регрессии ожидаемой величины фактора X1(t) при tпрогноз = n + k .
Получим прогнозные оценки фактора X1(t) на основе величины его среднего абсолютного прироста (САП)
САП = [ X1(t=n) – X1(t=1) ] / ( n – 1 )
X1 прогноз (t=n+k) = X1(t=n) + k * САП
Подставив соответствующие значения, получим
САП = ( 55 – 32) / 8 = 2,875
Тогда прогнозные значения фактора X1(t)
X1 прогноз(10) = X1(9) + 1 * САП = 55 + 2,875 = 57,875
X1 прогноз(11) = X1(9) + 2 * САП = 55 + 5.75 = 60,75
И прогнозные значения зависимой переменной
<Y(10)> = 15.68+0,32 * 57.875 = 34.2
<Y(11)> = 15.68+ 0,32 * 60.75 = 35.12
Интервальный прогноз рассчитывается с помощью доверительных интервалов по формуле
<Y(tпрогноз)> ? U(k)
где: U(k) – средняя стандартная ошибка прогноза
( x прогноз (n+k) – x ср ) 2
U(k) = S<Y(t)> * t ? * SQR[ 1 + 1/n + ----------------------------- ]
?nt=1 ( x t – x ср ) 2
S<Y(t)> - стандартная ошибка оценки;
t ? – табличное значение критерия Стьюдента для числа степеней свободы ( n – 2 ).
Подставив известные (по условию задачи) значения n = 9 и t 0,7 = 1,05 ; а также вычисленные ранее значения S<Y(t)> = 6.96 (пункт 3.4) ; x1ср = 43.5 и ?nt=1 (X1t - x1ср) 2 = 528.25(таблица 4), получим
U(1) = 6.96* 1,05 * SQR[ 1 + 1/9 + (34.2 – 43.5) 2 /528.25] = 8,26
U(2) = 6.96* 1,05 * SQR[ 1 + 1/9 + (35.12 –43.5) 2 /528.25] = 8.11
Результаты прогнозных оценок по линейной однофакторной модели регрессии представлены в таблице
Таблица