Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

в) Вид графика показывает наличие слабой связи между переменными и представлен в виде вытянутого эллипса, большая ось которого имеет наклон относительно осей координат. Такой график представлен на рис. 5.8 в осях MgCl2 KCl с удалёнными выбросами.

г) Вид графика представляет типичное поле рассеивания точек с устойчивой линейной обратной связью.

д), е) Оба графика характерны для рассеивания переменных, связанных устойчивой нелинейной зависимостью.

В случае, когда установлен вид нелинейной зависимости, можно использовать преобразования переменных. Так, для графика на рис. 5.7, е в функции yi b0 b1x0i обозначим x0i 1/ xi .

Тогда получим уравнение регрессии в виде обратно пропорциональной функции y b0 b1 / xi . Некоторые виды преобразований приведены в п. 7.

5.3.3. Вычисление параметров линейной регрессии

На одном из рудников ПАО «Уралкалий» опробован участок сильвинитового пласта АБ в зоне замещения сильвинита карналлитом. Всего по выработке отобрано 30 проб, химический состав проб представлен на диаграмме рассеивания (см. рис. 5.8). Представленное облако точек аппроксимировано линией регрессии, уравнение которой подписано на рис. 5.8.

Для имеющейся выборки наблюдений уравнение регрессии отыскивалось в виде функции

yˆi b0 bj x j ei ,

(5.2)

где yˆi – вычисленное значение функции в i-й точке (i = 1, n); n – число наблюдений;

b0 – свободный член уравнения регрессии;

bj – коэффициенты регрессии для j-й переменной. В парной регрессии зависимая переменная одна (j = 1);

171

ei – остатки, вычисляются из выражения «практика минус теория»:

ei yi yˆi yi (b0 b1 xi );

Xi независимая переменная, предиктор или аргумент.

Рис. 5.8. Диаграмма рассеивания в осях MgCl2 KCl

Само уравнение имеет линейный вид. Свободный член линейного уравнения b0 8,97 показывает высоту точки пере-

сечения линии регрессии и оси ординат. Коэффициент регрессии b1 0,098 представляет собой тангенс угла наклона прямой

Y = f (x) к оси абсцисс (рис. 5.9).

Коэффициенты регрессии b1 исвободный член уравнения b0 вычисляютсянаоснованиипринципанаименьшихквадратов:

n

 

ei2 min.

(5.3)

1

 

Перепишем сумму квадратов отклонений от линии регрессии (выражение (5.3)) с учётом равенства (5.2):

n

n

 

S ei2

(yi b0 b1 xi )2.

(5.4)

11

172

Рис. 5.9. Отклонения точек от линии регрессии

В этом выражении yi и xi – наблюдаемые значения, они известны. Значит, величина суммы квадратов S будет зависеть только от параметров b0 и b1. Значения b0 и b1 определим исходя из условия S = min. Для этого дифференцируем уравнение (5.4) сначала по b0, а потом и по b1 и приравняем результаты к нулю.

После некоторых промежуточных преобразований получаем систему нормальных уравнений:

 

 

n

 

 

n

b0

n b1 xi

yi

 

 

i 1

 

i 1

 

n

n

 

 

n

 

 

 

2

yi xi

b0

xi b1 xi

 

 

i 1

i 1

 

 

i 1

В этих выражениях суммирование ведётся от единицы до n. Изэтойсистемыуравненийнайдёмкоэффициентрегрессии:

 

n

 

n

 

 

n

 

/n

 

xi yi

xi

 

yi

b

i 1

i 1

 

i 1

 

 

 

xi2 xi 2 /n

 

 

1

 

 

 

xi x yi y . (5.5)

xi x 2

173

Величина xi2 именуется нескорректированной суммой квадратов X-ов, а ( xi )2 / n коррекцией на среднее значение

X-ов. Разность между ними (знаменатель левой части выражения (5.5)) называют скорректированной суммой квадратов X-ов. По

n

аналогии с этим xi yi именуется нескорректированной сум-

i 1

 

 

 

 

 

мой смешанных (парных) произведений, а

 

n

n

 

/n

( xi ) ( yi )

 

 

i 1

i 1

 

 

именуют коррекцией на среднее. Разность между ними (числитель левой части уравнения) называют скорректированной суммой произведений x на y.

Перепишем выражение (5.5) в другой форме:

Sxy xi x yi y xi x yi xi yi y

n

i 1xi i 1 yi

n

 

 

n

n

 

(5.6)

i 1 xi yi

 

 

 

 

i 1 xi yi n

 

 

 

;

 

 

x

y

 

 

n

 

 

 

 

 

 

 

 

 

 

Sxx xi x 2 xi x xi xi2 xi 2 /n xi2 n x2;

Syy yi y 2 yi y yi yi2 yi 2 /n yi2 n y2.

Тогда выражение (5.5) можно переписать в упрощенном

виде:

 

b1 Sxy / Sxx .

(5.7)

Если в выражение (5.2) подставить средние значения x и y ,

то свободный член уравнения можно определить из выражения (без остатков ei, поскольку сумма квадратов отклонений ei из всех возможныхпостроенийлинийминимальна):

b0

y

b1

x

.

(5.8)

174

Подставим b0 в выражение (5.2), получим оцениваемое уравнение регрессии:

yˆi b0 bj x j ei y b1 x b1 xi ei y b1(xi x) ei ; (5.9)

Если в выражении (5.9) приравнять xi x , то окажется, что и yˆi y . Значит, точка P с координатами (x, y) должна ле-

жать на выведенной линии регрессии.

В нашем первом примере с 30 пробами в табл. 5.7 выведены основные статистики, а в табл. 5.8 – рассчитанные оценки уравнения регрессии.

Таблица 5.7

Основные статистики

Таблица 5.8

Оценки уравнения регрессии

Уравнение регрессии имеет следующий вид:

MgCl2 = 8,9724 + 0,0977·KCl; подставим в него среднее значение хлорида калия:

MgCl2 = 8,9724 + 0,0977·32,03833 = 12,10.

В прил. Е приведены наблюдаемые данные, вычисленные по уравнению регрессии, и остатки. Как видно, средние наблю-

175

даемые и вычисленные сходятся. Средний остаток равен нулю. Таким образом, для средних значений функции и аргумента остаток е равен нулю, и в уравнении (5.9) он может не учитываться. Поскольку свободный член уравнения рассчитывается по остаточному принципу в выражении (5.8), то и сумма остатков будет равна нулю (с учётом погрешности округления она может незначительно отличаться от нуля).

5.4. Вычисление оценок регрессии

На диаграмме рассеивания (см. рис. 5.8) показана линия регрессии и одна проба (точка Р) с координатами (Xi, Yi). На оси ординат показано положение пробы, вычисленное по уравнению

регрессии yˆ , и среднее значение функции из наблюдений y. Тогда можно записать следующее тождество:

Y

 

(Y

Yˆ) (Yˆ

 

 

 

),

(5.10)

Y

Y

i

i

 

i

i

 

 

 

 

 

 

из которого выведем

 

 

 

 

 

 

 

 

 

 

 

Y Yˆ

Y

 

(Yˆ

 

 

).

(5.11)

Y

Y

i i

i

 

 

i

 

 

 

 

 

 

 

Из рис. 5.10 видно, что самая значительная разность представлена отклонением наблюдаемого значения функции в точке

Р от общего среднего значения функции Pr (Yi Y ). Вторую разность представляет отклонение предсказанного значения

функции от того же общего среднего

Teor (Yˆ

 

 

 

).

Остаток

Y

 

 

 

 

 

 

 

 

 

 

 

i

 

E Y Yˆ представляет собой разность между практикой и тео-

i

i i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

рией (в общем виде):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Pr

Teor

Y

 

Yˆ

 

Y Yˆ

E .

(5.12)

 

Y

Y

 

i

i

i

i

i i

i

 

 

Среднее значение для предсказанных по уравнению рег-

рессии ряда значений функции можно определить, как

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Yˆi

/ n (b0 b1 xi )/n (n b0

b1 n

x

)/n b0 b1

x

yˆ. (5.13)

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

176

Рис. 5.10. Положение i-й точки на оси ординат графика: Yi – наблюдаемое значение (практика);

Yˆi – вычисленное значение (теория);

Y – среднее значение из наблюдений

Из выражений (5.10) среднее значение предсказанной функции равно среднему арифметическому наблюдаемого значения функции.Нотогдаисуммаостатковравнанулю:

ei (yi Yˆi ) n y n y 0.

Перепишем выражение (5.10) в следующей форме:

(Y

 

) (Yˆ

 

 

) (Y

Yˆ).

(5.14)

Y

Y

i

 

i

 

 

i

i

 

Возведём обе части выражения в квадрат и просуммируем от 1 до n, получим:

n

 

n

n

 

(yi

 

)2 (Yˆi

 

)2 (yi Yˆi )2.

(5.15)

y

Y

1

1

 

 

1

 

 

 

В уравнении (5.14) левая часть

(Yi

 

) представляет от-

Y

клонение i-го наблюдения от общего среднего значения функции. В выражении (5.15) эта часть будет суммой квадратов (SS)

177

отклонений относительно среднего значения наблюдений – кратко SS относительно среднего.

(Yˆi Y ) – отклонения предсказанного значения функции

от его среднего значения. В выражении (5.15) эта часть будет суммой квадратов отклонений регрессии относительно среднего значения наблюдений – кратко SS, обусловленная регрессией.

(Yi Yˆi ) – остаток от вычисленного значения функции.

Последняя разность в выражении (5.15) даёт сумму квадратов SS относительно регрессии, или сумму квадратов остатков. Тогда можно записать тождество:

SS

 

SS

 

SS

Относительно =

Обусловленная

+

Относительно

среднего

 

регрессией

 

регрессии;

или

 

 

 

 

SS

=

SS

+

SS

Общая

От регрессии

Остатков.

 

 

Если в выражении (5.15) и приведенных тождествах сумма квадратов относительно регрессии (или сумма квадратов остатков) была бы равна нулю, то уравнение регрессии объясняло бы и описывало 100 % разброса функции. Иными словами, уравнение бы описывало функциональную зависимость без остатков.

Сумма двух слагаемых правой части тождества не может превышать общую сумму квадратов. Можно записать:

(SSрегр + SSост) / (SSобщ) ≤ 1.

Из этого неравенства очевидно, чем меньше SSост, тем больше будет SSрегр. Если из левой части убрать сумму квадратов остатков, то получим выражение для коэффициента детерминации (или квадрата коэффициента множественной корреляции):

R2 = (SSрегр) / (SSобщ).

178

Если величина R2 = 1, связь будет функциональная. Из приведенных выражений понятно, только не равные нулю остатки делают эту связь статистической. Коэффициент множественной корреляции определяется как корень квадратный из коэффициента детерминации, и поэтому не может быть отрицательным.

5.5.Дисперсионный анализ

Вразделе 3.3.4 были приведены разъяснения по степеням свободы. Число степеней свободы показывает, как много независимых элементов информации требуется для образования суммы квадратов. Например, при расчёте SS общей используют-

ся n независимых разностей (Yi Y ). Но при вычислении сред-

них значений мы уже один раз использовали эти наблюдения, значит, число степеней свободы для общей суммы квадратов составит (n – 1) независимых элементов.

Сумма квадратов, обусловленная регрессией SSрегр (из выражения (5.15)) для парной регрессии может быть получена, если использовать только одно значение b1, поэтому имеет одну степень свободы. Сумма квадратов остатков требует (n – 2) степени свободы. В соответствии с тождеством (5.14) можно разложить и степени свободы:

(n – 1) = 1 + (n – 2).

(5.16)

Используя приведенные тождества и рассчитанные суммы квадратов, строится таблица дисперсионного анализа (табл. 5.9).

Таблица 5.9 Таблица дисперсионного анализа

179

Первый столбец таблицы отображает источники вариации. В первой строке он обусловлен регрессией и составляет 19,84. Вторая строка содержит вариацию остатков, а третья включает общую вариацию наблюдаемой функции. Она рассчитывается как сумма двух первых сумм.

Но эти суммы можно рассчитать и независимо от дисперсионного анализа. Общая сумма квадратов наблюдаемых значений функции может быть определена из выражения

SSобщ 1n (yi

 

)2 .

(5.17)

y

Сумма квадратов, вычисленных по уравнению регрессии значений функции:

SSрегр 1n (Yˆi

 

)2.

(5.18)

Y

И сумма квадратов остатков:

 

SSост 1n (yi Yˆi )2 .

(5.19)

В программе Statistica построим уравнение регрессии и выведем таблицу с вычисленными остатками, дополнив её наблюдаемыми и предсказанными значениями функции. Таблица приведена в прил. Е. Дополним её столбцами, в которых вычис-

лим квадраты разностей (Yˆi Y ) и (Yi Y ) в последней строке

выведем суммы квадратов разностей. Для вычисления сумм используем инструмент блоковых статистик. Из приложения вид-

но, SSобщ = 47,96049; SSрегр = 19,84306; SSост = 28,11745. Расхож-

дение расчётных и приведенных в таблице дисперсионного анализа результатов в пятом знаке после запятой обусловлено погрешностями округления. В этой таблице обращают на себя внимание рассчитанные средние значения наблюдаемой функции и предсказанные по уравнению. Они равны, что подтверждает ранее высказанное утверждение из выражения (5.13) о равенстве среднего значения предсказанной функции и среднего арифметического наблюдаемого значения функции.

180

Соседние файлы в папке книги