Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Планирование эксперимента при поиске оптимальных условий

..pdf
Скачиваний:
35
Добавлен:
15.11.2022
Размер:
11.27 Mб
Скачать

в кодовом обозначении + 1 и —1 и проверим, какие взаимодей­ ствия смешаны с межблоковым эффектом.

В матрице табл. 8.9 можно видеть, что в каждом блоке для всех эффектов, за исключением смешанных, соблюдается равенство числа + 1 и —1. Следовательно, межблоковый эффект отразится на подсчете bQ, Ь14, Ь123 и 6234. Остальные коэффициенты регрессии освобождены от влияния источников неоднородности.

Матрицу

типа 2А:

можно разбить на количество блоков 2"

(п — степень

двойки)

при п < к. Так, матрица 23 разбивается

на два блока по четыре опыта в каждом и на четыре блока по два опыта в каждом. Матрица 24 — на два блока по восемь опытов в каждом, на четыре блока по четыре опыта и на восемь блоков по два опыта и т. д. Мы не имеем возможности подробно остана­ вливаться на этом вопросе. С разбиением матриц на блоки вы можете познакомиться в работе [3,4].

8.8. Резюме

В этой главе мы обратили ваше внимание на то, что к опыту нужно тщательно готовиться: собрать и наладить опытную уста­ новку, проверить приборы, подготовить исходное сырье, разра­ ботать журнал. Тщательная подготовка к опыту будет способ­ ствовать уменьшению ошибки опыта. Ошибка опыта является суммарной величиной, состоящей из ряда ошибок: ошибок при измерении факторов, параметра оптимизации и ошибок при проведении^опыта. Ошибки подразделяются ;на случайные и систематиче­ ские. Для того чтобы компенсировать влияние систематических ошибок, опыты нужно рандомизировать во времени. Если экспери­ ментатору заранее известны источники систематических ошибок, например ) известно количество различных партий сырья, следует разбивать матрицу планирования на блоки. При этом межблоко­ вый эффект заведомо смешивается с взаимодействиями, которыми экспериментатор может пренебречь.

Особое внимание следует уделять проверке однородности дисперсий, так как это — одна из предпосылок, лежащих в ос­ нове регрессионного анализа. Для проверки однородности дис­ персий можно использовать критерии Фишера, Кохрена или Бартлета. Очень важно отбросить грубые наблюдения — брак при постановке повторных опытов.

Воспроизводимость эксперимента является одним из важней­ ших требований планирования эксперимента.

Ли т е р а т у р а

1.Н. Бейли. Статистические методы в биологии. М., ИЛ, 1962.

2.В. В. Налимов. Применение математической статистики при анализе вещества. М., Физматгнз, 1960.

3.Е. В. Маркова, А. Н. Лисенков. Планирование эксперимента в условиях неоднородностей. М., «Наука», 1973.

4.К. А. Браунли. Статистические исследования в производстве. М., ИЛ., 1949.

Глава девятая

ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА

Когда все сущее, сменяясь каждый час, В нестройный, резкий хор сливается вкруг нас, Кто звуки мерные в порядке размещает,

Чьей речи верный ритм живителен и тверд, Кто единичное искусно обобщает, Объединяя все в торжественный аккорд?

Гете. Фауст

Тщательное, скрупулезное выполнение эксперимента, несом­ ненно, является главным условием успеха исследования. Это об­ щее правило, и планирование эксперимента не относится к ис­ ключениям.

Однако нам не безразлично, как обработать полученные дан­ ные. Мы хотим извлечь из них всю информацию и сделать соот­ ветствующие выводы. Как всегда, мы находимся между Сциллой и Харибдой. С одной стороны, не извлечь из эксперимента все, что из него следует, — значит пренебречь нелегким трудом экспериментатора. С другой стороны, сделать утверждения, не следующие из экспериментальных данных, — значит создавать иллюзии, заниматься самообманом (и обманом тоже, хотя и не­ вольным).

Статистические методы обработки результатов позволяют нам не перейти разумной меры риска. Поэтому мы отводим эту главу для их рассмотрения [1 8].

9.1. Метод наименьших квадратов

Статистики разработали много разнообразных методов обра­ ботки результатов эксперимента. Но, пожалуй, ни один из них не может конкурировать по популярности, по широте приложе­ ний с методом наименьших квадратов (МНК), который был раз­ вит усилиями Лежандра и Гаусса более 150 лет назад.

Давайте попробуем разобраться в этом методе. Начнем с про­ стого случая: один фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также называть уравнением

регрессии) имеет вид

г/ = Ь0 + Wxv

Это хорошо известное вам уравнение прямой линии. Наша цель — вычисление неизвестных коэффициентов bQи bv Мы провели экс­

141

перимент, чтобы использовать при вычислениях его результаты. Как это сделать наилучшим образом?

Если бы все экспериментальные точки лежали строго на пря­ мой линии, то для каждой из них было бы справедливо равенство

Vi

fy) —Wxu = О,

где i = l ,

2, . , N — номер опыта. Тогда не было бы никакой

проблемы. На практике это равенство нарушается и вместо него приходится писать

Уг — К - Ь гхи = ^,

где — разность между экспериментальным и вычисленным по уравнению регрессии значениями у в i-й экспериментальной точке. Эту величину иногда называют невязкой.

Действительно, невязка возникает по двум причинам: из-за ошибки эксперимента и из-за непригодности модели. Причем эти причины смешаны и мы не можем, не получив дополнительной информации, сказать, какая из них преобладает.

Можно постулировать, что модель пригодна. Тогда невязка будет порождаться только ошибкой опыта. (Еще можно, конечно, постулировать, что ошибка опыта равна нулю. Тогда невязка будет связана только с пригодностью модели, и пригодной будет такая модель, для которой все невязки равны нулю.)

Обычно оценивают независимо ошибку опыта (помните преды­ дущую главу?) и проверяют пригодность модели.

Конечно, мы хотим найти такие коэффициенты регрессии, при которых невязки будут минимальны. Это требование можно записать по-разному. В зависимости от этого мы будем получать разные оценки коэффициентов. Вот одна из возможных записей

Л’

/7 = 2 ^ = min, »=i

которая приводит к методу наименьших квадратов.

N

Возможен и метод наименьших кубов ^ И? | — min, так как i=l

условие, которое мы выбираем, произвольно.

Беда заключается в том, что он хуже МНК с другой точки зрения: мы будем получать оценки коэффициентов со значительно меньшей точностью. Да и в вычислительном отношении этот путь сложнее.

Существует и метод, в котором минимизируется сумма модулей (абсолютных величин) невязок. Но этот путь связан с дополни­ тельными вычислительными трудностями. Условие МНК — это удачный компромисс.

142

В последнее время были предложены другие подходы. Можно, например, минимизировать модуль максимальной невязки. Это записывается так:

min max | Ц, |.

г

Предложений можно сделать сколько угодно, но мы не будем более на них останавливаться и перейдем непосредственно к МНК.

Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком случае не меньше) опытов, чем число неизвест­ ных коэффициентов. Поэтому система линейных уравнений

Zi = yi - b Q- b1xli

оказывается переопределенной и часто противоречивой (т. е. она может иметь бесконечно много решений или может не иметь реше­ ний). Переопределенность возникает, когда число уравнений больше числа неизвестных; противоречивость—когда некоторые из уравнений несовместимы друг с другом.

Только если все экспериментальные точки лежат на прямой, то система становится определенной и имеет единственное реше­ ние.

МНК обладает тем замечательным свойством, что он делает определенной любую произвольную систему уравнений. Он де­ лает число уравнений равным числу неизвестных коэффициентов.

Наше уравнение регрессии имеет вид y = bi)4-b1x1.

В нем дванеизвестных коэффициента. Значит, применяя МНК, мы 'получим два уравнения.

Давайте попробуем их получить. Мы писали

N

и = 2 i ? = mi n .

♦ =1

Это соотношение можно записать иначе

СТ = 2 е = 2 ( К - Ь о - Kxuf = min.

1 = 1

1 = 1

Вы, конечно, помните из курса математики, что минимум некоторой функции, если он существует, достигается при одно­ временном равенстве нулю частных производных по всем неиз­ вестным, т. е.

дУдЬ0 = 0,

143

Вот откуда берутся наши уравнения для определения коэф­ фициентов. Теперь, как говорится, дело техники:

М М

2 2 {У{

^ixu) ==

^ 2 (У*

К

Wxit) хи == О*

1=1

 

1=1

 

 

Для. вычислений удобно раскрыть скобки и провести простые преобразования, которые дают

JV N N N N

N h + 2

xi A = 2 уг

2

хиь<>+ 2

хнК = 2 у>хи-

i = i

i = i

i = i

»= 1

i = i

Окончательные формулы для вычисления коэффициентов ре­ грессии,' которые удобно находить с помощью определителей, имеют вид

N

М

 

 

 

 

 

м

 

Таблица 9.1

 

 

2

Vi 2

хЬ —2

у^ *

£

Хи

Условия и результаты опытов

2

 

 

 

1=1

»=1

 

 

t=i

 

 

1=1

 

 

 

 

 

М

 

 

 

 

 

 

 

Номер опыта

 

У

 

я 2

 

х** ~

2

Хи

 

 

 

 

1=1

 

\i=i

 

 

 

 

 

 

N

 

N

 

N

 

 

1

х п

У\

^21=1 ViXu-2 л 2 Хи

 

 

2

Х12

Уъ

 

 

 

 

 

 

 

 

 

 

 

 

N

 

/

N

 

\ а

 

 

 

 

 

«

2 *?< -

2

 

 

 

 

 

 

г=1

 

\г=1

 

 

 

 

 

Xii

Уi

Посмотрим теперь,

как вы­

 

 

 

числяются

суммы,

 

входящие

N

Х1N

Ум

в эти формулы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Результаты эксперимента представляются следующей матрицей (табл. 9.1). Для выполнения вычислений ее расширяют так, как представлено в табл. 9.2.

Вы, конечно, заметили, что в этой таблице сделано больше вычислений, чем требуется для расчета Ь0 и bv Эти «лишние» дан­ ные нужны для проверки правильности расчетов.

Возможны два способа проверки. Первый из условия

2 (хи + уt f =

2

хи + 2 2

Vixu +

2

уЬ

i=i

i=i

/=1

 

 

 

которое хорошо

вам

известно

еще

из

школьной математики.

(Оно должно выполняться не только для сумм, но и в каждой строчке таблицы.) Второй способ использует условие у= Ъ0-\-Ъ1х1. Подставляя в это соотношение у и из последней строки таблицы и один из коэффициентов, можно найти другой коэффициент и сравнить с расчетным.

Вторая из проверок является наиболее полной, наиболее жест­ кой. Она проверяет не только вычисления сумм, но и вычисления коэффициентов.

144

Таблица 9.2 Расчетная таблица для вычислений коэффициентов регрессии

Номер

 

V

*1

у х 1

V 1

*1+ V

 

(»i +

V У

опыта

 

 

1

 

Уг

*?1

У1хп

у\

*11 +

Vi

(*п

+

!/i)2

2

*12

Уг

*12

Угх\г

Уг

* 1 2 +

Уг

( * 1 2

+

Уг)2

 

х и

Vi

*1i

Vi х и

У5

*11 +

У%

( * i i

+

г/,)а

N

Х 1У

УУ

X 2

VN X \ N

Уу

Х 1N +

УУ

(X IN +

Уу)2

 

Х 1У

 

N

У

У

У

N

 

 

У

 

 

2

2 * ь -

2 *

i = i

2 y iX Ь ‘

2 » ?

 

 

2 (х ь-

+ Уд2

 

; = 1

i = i

i = l

1=1

 

 

t = i

 

 

Среднее

* i

У

 

 

 

 

 

 

 

 

значение

 

 

 

 

 

 

 

 

 

 

На практике используют обе проверки, чтобы в случае ошибок в таблице не считать зря коэффициенты.

Имейте в виду: никакая проверка не гарантирует вас о т оши­ бок в записи исходных данных. Будьте внимательны!

Имейте в виду: никакие результаты вычислений нельзя ни ис­ пользовать,, ни даже обсуждать, пока они не проверены. Иначе вы рискуете впасть в заблуждение и, в лучшем случае, потерять время.

Ну вот мы и научились вычислять коэффициенты. Давайте на­ несем исходные данные и полученное уравнение на график (рис. 25).

Выделим для удобства рассмотрения несколько эксперимен­ тальных точек и отрезок нашего уравнения в большем масштабе (рис. 26).

Мы выбрали пять экспериментальных точек, которые прону­ меровали цифрами 1, 2, 3, 4, 5. Четвертая точка оказалась лежа­ щей на линии. МНК состоит в том, чтобы минимизировать сумму квадратов отрезков, характеризующих расхождение между экс­ периментальными точками и полученным уравнением. Мы мини­ мизировали сумму квадратов пунктирных отрезков.

Если бы наше уравнение регрессии имело вид

х1== -f-b^y,

то мы минимизировали бы сумму сплошных отрезков.

Во всех формулах тогда пришлось бы хг и у поменять местами и коэффициенты получились бы другими (если, конечно, не все невязки равны нулю).

Ю Заказ Ml 588

145

Мы находим невязки по оси у, поэтому и минимизируется сумма квадратов вертикальных отрезков. Обе линии совпадут только в том случае, если все невязки равны нулю, т. е. если все экспери­ ментальные точки лежат точно на прямой линии.

Теперь мы можем узнать, какая же получилась сумма квад­ ратов невязок. Будем называть ее остаточной суммой квадратов.

Рис. 25. Линейное уравнение

Рис. 26. Линейное уравнение

регрессии

регрессии (фрагмент)

Из рисунков видно, что для этого надо вычислить по уравне­ нию значения у в условиях каждого опыта. Будем называть такое значение предсказанным и обозначать у. Затем надо найти все невязки (отрезки), возвести их в квадрат и сложить (табл. 9.3).

Таблица 9.3 Расчет остаточной суммы квадратов

Номер опыта

1

2

i

N

N

Величина 2

V

У

<

Дy 1

1 A II >S

Vi

S i

Ay!

Ayl

У2

S i

Ay2

Ay\

Vi

S i

Ay{

Ay}

yN

S N

AyN

W N

 

 

 

JV

 

 

 

2

 

 

 

»•=1

11 есть остаточная сумма квадратов, которую

мы раньше обозначили 2 £?• МНК гарантирует, что эта величина

1=1

минимально возможная.

146

Итак, мы научились находить наилучшие в смысле МНК оценки коэффициентов линейного уравнения для одного фактора. Это, конечно, полезно, но нас интересуют многофакторные задачи.

Обобщение на многофакторный случай не связано с какимилибо принципиальными трудностями. Правда, вычисления зна­ чительно усложняются и требуют привлечения аппарата алгебры матриц. Рассмотрим его в следующей главе. А пока мы восполь­ зуемся тем, что наши матрицы планирования ортогональны. Если вы забыли это понятие, то обратитесь к стр. 84 и повторите его. Далее будем рассматривать только этот случай, который позво­ ляет резко упростить вычисления, что составляет одно из преиму­ ществ планирования эксперимента.

Можно показать, что для любого числа факторов коэффициенты будут вычисляться по формуле

N

 

2 V*Xji

 

и __‘=1

 

В этой формуле / = 0 , 1, 2

, к — номер фактора. Ноль записан

для вычисления Ь0. Действительно, посмотрите на формулы для вычисления коэффициентов регрессии на стр. 144. В первой формуле

N

2 хи = о

»=1

в силу симметричности плана. Поэтому после сокращения фор­ мулы приобретают вид

N

 

N

 

2

Ъ

i=l2

Vi*li

. *=1

 

N

ui

Л’

 

 

 

t=2i x h

где

2 *?,= лг.

i=l

что совпадает с написанным выше.

Так как каждый фактор (кроме х0) варьируется на двух уров­ нях + 1 и —1 , то вычисления сводятся к приписыванию столбцу у знаков соответствующего фактору столбца и алгебраическому сложению полученных значений. Деление результата на число опытов в матрице планирования дает искомый коэффициент. Это очень простая формула, но вам необходимо научиться пользо­ ваться ею безошибочно.

При вычислениях линейных моделей по дробным репликам никаких особенностей но появляется. Все точно так же. Допол­

10* 147

нительные трудности возникают, если мы хотим найти коэффи­ циенты неполного квадратного уравнения (если нас интересуют эффекты взаимодействия). Тогда уравнение регрессии будет иметь вид

J/ = &o + bA +

&2Z2+ •••

+ Ь кхк + Ъих1хл +

b V3)X xX z - \ -

. . . - J - b k_ v

к Х к - 1 Х к '

Конечно, можно интересоваться не всеми эффектами взаимодейст­ вия, а только определенными. В полном факторном эксперименте

можно

оценить все

взаимодействия. Для дробных

реплик это

не так.

 

 

 

Если вы построили полуреплику 24-1 с определяющим кон­

трастом

i = x 1x2x3xi ,

то раздельных оценок Ьп и

b3i получить

нельзя, так как имеет место соотношение хххг= х 3х^. В этом можно легко убедиться, если выписать столбцы интересующих нас эф­ фектов. А это необходимо для вычисления коэффициентов. В на­ шем случае столбец хгх2 совпадает со столбцом х3х4.

Формулу для вычислений коэффициентов можно записать так:

N

Vix uix j i

 

___ t = l ____________

 

° u j

/V

 

Здесь

u, /= 1 ,2 ,

., к — номера факторов, и^=).

Обратите внимание, что в силу ортогональности эффекты взаи­ модействия оцениваются независимо от линейных эффектов.

9.2. Регрессионный анализ

До сих пор мы пользовались МНК как вычислительным прие­ мом. Нам нигде не приходилось вспоминать о статистике. Но, как только мы начинаем проверять какие-либо гипотезы о пригод­ ности модели или о значимости коэффициентов, приходится вспо­ минать о статистике. И с этого момента МНК превращается в ре­ грессионный анализ.

А регрессионный анализ, как всякий статистический метод, применим при определенных предположениях, постулатах.

Первый постулат. Параметр оптимизации у есть случайная величина с нормальным законом распределения. Дисперсия вос­ производимости, которую мы научились находить в седьмой главе, — одна из характеристик этого закона распределения.

В данном случае, как и по отношению к любым другим посту­ латам, нас интересуют два вопроса: как проверить его выполни­ мость и к чему приводят его нарушения?

При наличии большого экспериментального материала (де­ сятки параллельных опытов) гипотезу о нормальном распреде­ лении можно проверить стандартными статистическими тестами

148

(например, ^-критерием). К сожалению, экспериментатор редко располагает такими данными, поэтому приходится принимать этот постулат на веру. (Кроме тех случаев, когда заведомо из­ вестно, что это не так и требуется специальное рассмотрение. Мы не будем на них останавливаться.)

В том, что у — случайная величина, обычно сомневаться не приходится.

Какие последствия связаны, по вашему мнению, с нарушением первого постулата?

При нарушении нормальности мы лишаемся возможности уста­ новления вероятностей, с которыми справедливы те или иные вы­ сказывания. В этом таится большая опасность. Мы рискуем за­

гипнотизировать себя

численными

оценками и

вероятностями,

за которыми ничего

не стоит. Это

даже хуже

волюнтаризма.

Вот почему надо очень внимательно относиться к возможным на­ рушениям предпосылок.

Второй постулат. Дисперсия у не зависит от абсолютной ве­ личины у. С этим требованием мы уже встречались в восьмой главе.

Выполнимость этого постулата проверяется с помощью кри­ териев однородности дисперсий в разных точках факторного про­ странства. Нарушение этого постулата недопустимо. Если одно­ родность дисперсий все же отсутствует, то необходимо такое пре­ образование у, которое делает дисперсии однородными. Увы, его не всегда легко найти. Довольно часто помогает логарифми­ ческое преобразование, с которого обычно начинают поиски.

Третий постулат. Значения факторов суть неслучайные вели­ чины. Это несколько неожиданное утверждение практически озна­ чает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем ошибка воспроизво­ димости.

Нарушение этого постулата приводит к трудностям при реали­ зации матрицы планирования. Поэтому оно обычно легко обнару­ живается экспериментатором.

Существует еще четвертый постулат, налагающий ограничения на взаимосвязь между значениями факторов. У нас он выпол­ няется автоматически в силу ортогональности матрицы планиро­ вания.

Если с постулатами все в порядке, то можно проверять стати­ стические гипотезы.

9.3. Проверка адекватности модели

Первый вопрос, который нас интересует после вычисления коэф­ фициентов модели, это проверка ее пригодности. Мы будем назы­ вать такую проверку проверкой адекватности модели.

Ниже (рис. 27, а , б) приведены два рисунка с одинаковым расположением экспериментальных точек и, следовательно, оди­ наковым разбросом относительно линии регрессии, но с различ­

149