Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf
Скачиваний:
0
Добавлен:
12.11.2023
Размер:
19.38 Mб
Скачать

 

 

 

 

 

 

 

Т а б л и ц а

6,1

 

Р езул ь т ат ы

и зм ер ен и я

сем и геом ор ф ол оги ч еск и х

п ер ем ен н ы х

 

 

 

в

речны х

б ассей н ах

т р еть его

п ор я д к а

ш тата

К ентук ки

 

 

У

A'i

Л'.

V

АЧ

 

Л';

Xj

 

14

720

570

07

154

 

2200

61

 

 

6

670

610

03

8.0

 

2667

62

 

 

Г)

860

550

11

84

 

763

62

 

 

7

870

610

11

122

 

1110

63

 

!

1

730

570

14

185

 

1321

52

 

14

690

590

12

200

 

1667

50

 

12

880

640

11

170

 

1345

41

 

18

760

690

28

340

 

1215

57

 

 

6

820

600

5

100

 

2000

41

 

 

!)

720

480

3

80

 

2667

60

 

17

670

670

19

290

 

1526

51

 

 

о

660

600

5

90

 

1800

53

 

22

830

660

18

260

 

1444

57

 

 

 

780

620

17

111

 

652

57

 

15

750

740

15

184

 

1227

67

 

17

770

630

21

227

 

1080

59

 

 

5

750

570

4

60

 

1500

55

 

18

750

580

50

259

 

1295

39

 

14

740

760

9

62

 

689

64

 

21

750

740

6

95

 

1583

53

 

22

750

760

11

105

 

954

64

 

23

740

770

32

350

 

1094

55

 

28

940

510

21

232

 

1105

52

 

42

700

600

32

266

 

1156

34

 

810

580

44

390

 

886

29

 

10

920

500

13

142

 

1092

65

 

! 1

920

490

12

145

 

1208

72

 

12

790

605

33

253

 

766

59

 

13

860

550

23

241

 

1048

76

 

3!

860

630

87

702

 

807

55

 

18

880

520

37

288

 

778

51

 

13

780

460

17

162

 

953

40

 

 

4

720

440

8

67

 

838

60

 

 

5

780

300

3

52

 

1733

57

 

 

q

700

460

!0

12!

 

1210

50

 

13

680

520

26

220

 

846

41

 

in

820

520

8

123

 

1537

51

 

13

710

520

24

238

 

992

41

 

13

800

440

19

231

 

1216

51

 

11

700

510

16

178

 

1113

76

 

12

675

570

18

168

 

933

42

 

 

4

740

510

8

65

 

812

49

 

17

740

520

31

334

 

1078

67

 

 

9

770

600

2!

184

 

876

47

 

 

8

820

520

И

136

 

1237

56

 

S3

850

490

22

233

 

1059

74

 

22

820

629

34

410

 

1206

39

 

10

820

510

11

149

 

1354

60

 

19

680

640

46

348

 

757

55

 

27

660

789

55

382

 

695

38

 

П е р е м е н н ы е :

Y— величина

бассейна;

Х\ — абсолютная

отметка истоков бассеЙ-

на (в

футах);

Х2— характеристика

рельефа бассейна (в

футах);

Х3 — площадь

бассейна

(в квадратных

милях);

Xt — общая длина русел

бассейна

(в милях); Х$ — плотность

дре­

нажа (отношение общей длины русел к площади бассейна);

— отношение

площадей

наибольшего вписанного круга и наименьшего описанного круга 1161.

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

6.2

Д и сп ер си он н ы й

ан ал и з (A N O V A )

д л я

м н о ж ест в ен н о й

р егресси и

 

 

 

с т

н езави си м ы м и

п ерем ен н ы м и

 

 

И с т о ч н и к

С у л г . м а к в а д р а ­

Ч и с л о с т е п е н е й

С р е д и н е з н а ­

Г- к р и i е р н й

 

и з м е н ч и ­

т о в

 

с в о б о д ы

 

ч е н и я

 

в о с т и

 

 

 

 

 

 

 

 

 

Р егр есс и я

S S ,

 

т

 

M S R

M S , I M S о

 

О тк л он ен и е

S S n

 

п т — I

M S D

 

 

С ум м а

S S T

 

п 1

 

 

 

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а

6.3

Р езул ь таты

о п р едел ен и я

зн ач и м ости регресси он н ой

зав и си м ости величины

 

бассей н а

от

ш ести

геом ор ф ол оги ч еск и х

п ерем ен н ы х

 

 

с

п ом ощ ью

д и сп ер си он н ого ан ал и за*

 

 

И с т о ч н и к

С у м м а к в а д р а ­

Ч и с л о с т е п е н е й

С р е д н и ? з н а ­

F- к р и т е р и й

 

и з м е н ч и ­

тов

 

с в о б о д ы

 

чения

 

в о с т и

 

 

 

 

 

 

 

 

 

 

 

 

 

Р егр есси я

1 8 0 0 ,7 0

 

6

 

3 0 0 ,1 2

11, 38

 

О тк л он ен и е

1 134, 12

 

43

 

2 6 ,3 7

 

 

С ум м а

2 9 3 4 ,8 2

 

49

 

 

 

 

 

* У р а в н е н и е р е г р е с с и и ;

У = — 2 , 2 4 + 0 ,O ! .\'I +

0 . 0 2 X 2— 2 3 , 2 8 Л ' з + 6 , 2 6 Л ' 4— 0 . 2 0 Х 5— 11,66А'„.

К о -

/.j- ф н ц и о и т м н о ж е с т в е и о п й р е г р е с с и и : ^ = * 0 . 7 8 .

ццентов регрессии, так как их величины зависят от значений самих переменных. Эта зависимость легко прослеживается при построении поверхностей тренда, где коэффициенты при членах высшего порядка дают больший вклад в тренд, чем члены более низкого порядка. Это вытекает из того, что высокая степень пе­ ременной имеет значительно больший порядок, чем первона­ чальная переменная. Соответственно коэффициенты при регрес­ сионных членах более высокого порядка уменьшаются.

Ксчастью, частные коэффициенты регрессии легко выпазить

вединицах стандартного отклонения (Ли [43J). Стандартные коэффициенты частной регрессии В/, находятся по формуле

Bk — bkSk/Sy,

(6.6)

где sft— оценка стандартного отклонения переменной

и sv—

213

оценка стандартного отклонения величины Y. Так как все стан­ дартные частные коэффициенты регрессии выражаются в едини­ цах стандартного отклонения, то их можно прямо сравнить друг с другом ц определить наиболее эффективные из них.

Вычислив элементы матрицы сумм квадратов и произведе­ ний, необходимых для построения нормальных уравнений, най­ дем диагональные элементы ЕЛ'/,2 н по ним вычислим исправ­ ленные суммы квадратов SSk и затем стандартные отклонения, необходимые для вычисления частных коэффициентов корреля­ ции. Однако можно получить решение нормальных уравнений в таком виде, что при этом прямо получаются значения стандар­ тизованных частных коэффициентов регрессии, в результате че­ го получается значительный выигрыш в вычислительном про­ цессе.

Большая часть ошибок при построении множественно:: рег­ рессии возникает при вычислении элементов матрицы [ЕЛ’] и в процессе ее обращения. Суммы квадратов переменных л мо­ гут возрасти настолько, что при отбрасывании разрядов, выхо­ дящих за пределы разрядной сетки, могут быть потеряны зна­ чащие цифры. Далее, если элементы матрицы [2LY] сильно раз­ личаются по величине, то при ее обращении может произойти дополнительная потеря знаков, в особенности в тех случаях, когда между переменными имеется высокая корреляция Неко­ торые вычислительные программы в состоянии сохранить толь­ ко одну или две значащих цифры в коэффициентах, а с неко­ торыми данными дело может обстоять еще хуже. Исследования показали, что вычислении с использованием двойной точности недостаточно для того, чтобы преодолеть эту трудность. Однако несколько простых изменений в программе позволят сохранить в процессе вычислении от двух до шести значащих цифр и зна­ чительно повысить точность уравнения регрессии [44].

Во-первых, все наблюдения заменим на их отклонения от среднего значения. Это преобразование позволяет уменьшить абсолютную величину переменных и приводит к переменным, имеющим общее среднее значение, равное нулю. При этом пре­ образовании коэффициент Ь0 обращается в нуль, так что поря­ док матрицы системы уравнений снижается на единицу, В ре­ зультате такого преобразования сохраняется несколько знача­ щих цифр. Однако порядок величин элементов матрицы можно еще уменьшить, если использовать вместо них соответствующие коэффициенты корреляции. Это преобразование соответствует записи исходных переменных в стандартной нормальной форме с нулевым средним и единичным стандартным отклонением. Матричное уравнение для определения коэффициентов регрес­ сии тогда примет вид

[г**]-[В] = [/•*„],

(6.7)

214

п его решение запишется так.

 

[В] = [г«]"*-[г,у].

(6.8)

Здесь \rxv\ — вектор-столбец коэффициентов

корреляции

между переменной Y и независимыми переменными Хк. Матри­ ца коэффициентов корреляции между переменными Xk порядка т.<т обозначается через [rxx]. Например, нормальное уравне­ ние для трех независимых переменных имеет вид

" 1

Г,2 г п

Г*,1

ГХг у

Г21

1

Г23

* в ,

=

Гх, у

г г \

г 32

1

В ъ

 

 

Отметим, что в этом уравнении на одну строку и один стол­ бец гденыне, чем в эквивалентном уравнении (6.5 ).

Однако этот метод, основанный на вычислении корреляцион­ но;! матрицы и получении стандартизованного уравнения рег­ рессии, имеет тот недостаток, что он увеличивает объем вычис­ лений. Для сохранения точности коэффициенты корреляции ре­ комендуется вычислять не по формуле (2.24), а на основании определяющего уравнения. Использование формулы (2.24) не­ целесообразно по той причине, что она содержит квадраты ве­ личин ЪХ} и Если эти суммы велики, то их квадраты мо­ гут оказаться неточными за счет отбрасывания разрядов, выхо­ дящих за пределы разрядной сетки. Этой проблемы не возни­ кает, если до вычисления сумм квадратов из каждого наблюде­ ния вычесть среднее значение. Суммы квадратов находятся по формулам (2.16) и (2.19). Для осуществления этой операции требуется использовать исходные данные дважды — первый раз для вычисления среднего значения, а затем при вычитании по­ лученного значения из наблюдений. В то же время как при вычислениях вручную это приводит к значительному увеличе­ нию объема работы, на вычислительной машине такая операция проводится очень просто. Вычисленные коэффициенты должны выдаваться в «нестандартизированном» виде, так как они за­ тем используются для построения уравнения прогноза вместе с необработанными данными. Однако этот недостаток окупается преимуществами возрастающей устойчивости и точности мат­ ричного решения, а стандартизованные коэффициенты дают воз­ можность оценить величины вкладов отдельных переменных в уравнение регрессии. Коэффициенты частной регрессии можно получить из стандартизированных коэффициентов частной рег­ рессии с помощью преобразования

bk= BkSylsk.

(6 .10 )

Постоянный член Ь0 находится по формуле

Ьо У biX\ biX i — — — $тХт-

(6. 11)

215

Несмотря на то, что суммы квадратов изменяются при стан­ дартизации данных или при использовании матричного уравне­ ния в корреляционной форме, отношения сумм квадратов оста­ ются неизменными. Поэтому критерии значимости, основанные на стандартизованной регрессии, идентичны критериям, основан­ ным на нестандартизованной регрессии. Такие величины, как коэффициент множественной корреляции (R) и процентное вы­ ражение точности аппроксимации (100% R'2), также остаются неизменными.

Данные, приведенные в табл. 6.4, представляют собой харак­ теристики нефтегазоносного бассейна в Арканзасе. Зависимой переменной является оценка запасов нефти в некотором участ­ ке бассейна, вычисленная на основании метода материального баланса. Уравнение материального баланса в сущности язляется соотношением между добычей нефти, добычей газа и давле­ нием. Б него включаются также допущения об объеме ретервуара и начальных объемах нефти, газа и воды. Независимыми переменными являются время заполнения резервуара, давление в нем, общая добыча нефти, кумулятивное отношение добычи газа к добыче нефти. Так как между зависимой переменной и аргументами в уравнении материального баланса имеется не­ явная связь, то мы вправе ожидать необычно высокую внутрен­ нюю корреляцию. Действительно, если модель материального баланса выбрана удачно и паши представления о начатьном состоянии и объеме резервуара правильны, то корреляция, будет

 

 

 

 

 

 

 

 

 

Т а б л и ц а 6.4

 

 

Ч исловы е хар ак тер и ст и к и

о д н ой и з

за л е ж е й

 

 

 

 

н еф т е га зо н о сн о го поля в

А р к а н за се

 

 

 

У

■Mi

•V.

 

 

 

Хз

 

 

х\

ПО 273,0

1,0

3320,0

 

 

 

0,0

760,0

111

105,0

4,0

3125,0

 

29

183,0

853,0

114 992,0

8,0

2910,0

 

46 536,0

906,0

119 437,0

12,0

2785,0

 

60 302,0

939,0

118 961,0

16,0

2650,0

 

73 604,0

960,0

116 968,0

20,0

2505,0

 

87 513,0

990,0

119 663,0

24,0

2425,0

 

98 738,0

1018,0

117 514,0

28,0

2290,0

 

112 587,0

1070,0

117 292,0

32,0

2125,0

 

126

192,0

1200,0

114 776,0

36,0

1950,0

 

139 981,0

1310,0

113 969,0

40,0

1785,0

 

153 419,0

1440,0

111

881,0

44,0

1670,0

 

161

327,0

1500,0

114 455,0

48,0

1601,0

 

173 485,0

1516,0

116

196,0

52,0

1537,0

 

185 832,0

1520,0

П е р е м е н н ы е : У — оцениваемые запасы

нефти в исследуемом районе (Х103 бар­

релей);

X , — время

после завершения

полевых

работ

(месяцы);

Х 2 — давление

в залежи

(фунт/дюйм!); Х3— суммарная добыча

нефти

(Х102 баррелей);

Х 4 — отношение

добытого

количества газа к добытому объему нефти (фут3/баррель).

216

высокой. Неудачные попытки полностью оценить размеры неф­ тяных запасов могут быть связаны с ошибками в начальных допущениях или с неполным исследованием всех факторов, вхо­ дящих в уравнение материального баланса.

Эти данные содержат некоторые характеристики, представ­ ляющие трудности для анализа. Так как порядки значении изу­ чаемых переменных сильно различаются, то элементы матрицы смешанных произведений также сильно отличаются по величи­ не. Эти данные образуют многомерный временной ряд. Так же, как и в других рядах этого типа, таких, как кривые роста эко­ номики или использования трудовых ресурсов, переменные сильно коррелироваиы. Сохранить достаточное количество цифр в матричных вычислениях или сохранить точность в процессе обращения оказывается затруднительным. Полезно вычислить коэффициенты регрессии, используя матрицу Т.Х и матрицу гхх. Для сравнения стандартизованные частные коэффициенты рег­ рессии должны быть преобразованы к обычному виду (6.10) и (6.11). Различия, которые можно обнаружить, возникают из-за ошибок округления при использовании матрицы 2А'.

Несмотря на то что стандартизованные частные коэффициен­ ты регрессии позволяют находить наиболее важные переменные,

входящие в уравнение

регрессии, они не могут

служить непо-

1 рс1ш;\;ым указанием

на то, что

это уравнение

выбрано

иаи-

лучшпм образом. Предположим,

что, исследуя

уравнение

рег­

рессии, мы пришли к выводу, что две переменные дают

несу­

щественный вклад в регрессию и их можно отбросить. Если од­ ну из переменных устранить и снова построить уравнение рег­ рессии, то качество подбора и само уравнение, конечно, изме­ нятся. Если мы решили устранить вторую переменную, уравне­ ние регрессии снова изменится, но изменение может быть совсем иным по сравнению с изменением, которое произойдет в том случае, если первая переменная сохранится в регрессии. Это происходит по тон причине, что эффекты взаимодействия двух отбрасываемых переменных с другими переменными нельзя оцепить без повторного построения регрессионного уравнения. Если необходимо провести исследование большого числа пере­ менных и отбросить те переменные, которые несущественны для данной задачи, то мы не должны ограничиваться простым ис­ следованием частных коэффициентов регрессии.

Увеличение числа независимых переменных в уравнении рег­ рессии всегда ведет к увеличению SSR (исключая те случаи, когда новые переменные полностью коррелироваиы со старыми). Однако это увеличение не может быть значительным. Потерю степеней свободы отклонений можно компенсировать уменьше­ нием SSD, что в действительности приводит к увеличению сред­ него значения квадратов отклонений. Если это происходит, то F-отношение уменьшается, что приводит к сокращению числа

217

членов в уравнении регрессии. Для определения наилучшей возможной регрессии (наиболее значимого ^-отношения) при­ ходится исследовать всевозможные комбинации переменных; ес­ ли переменных немного, это сделать легко, так как число их возможных комбинаций равно 2т. Однако если т велико, эта процедура требует значительных затрат машинного времени. Существуют другие процедуры, которые позволяют получать оптимальную регрессию со значительно меньшими затратами времени. Среди них можно назвать обратную процедуру ис­ ключения, прямую процедуру выбора, методы пошаговой и мно­ гошаговой регрессии. При большом количестве исходных пере­ менных эти методы не всегда приводят к одинаковым уравне­ ниям регрессии, однако результаты, полученные на их основа­ нии, все же эквивалентны. Изложение этих методов не входит в наши задачи, и мы приведем лишь краткое описание одного из них. Эти методы хорошо изложены в некоторых руководствах, например в книгах Дрейпера и Смита [14] и Мараскило и Ле­ вина [46].

Обратная процедура исключения сводится к построению уравнений регрессии, включающих все возможные переменные, и в последующем отборе наименее значимых аргументов. Отбор проводится путем исследования стандартизированных коэффи­ циентов частной регрессии с наименьшими значениями и после­ дующего построения уравнения регрессии, из которого удалены эти переменные. Значимость отбрасываемых переменных прове­ ряется с помощью приемов дисперсионного анализа, аналогич­ ных представленным в табл. 4.16. Если переменная не дает зна­ чимого вклада в регрессию, то она обыкновенно отбрасывается. Затем стандартизированные коэффициенты частной регрессии приведенного уравнения анализируются снова, и процесс повто­ ряется. На каждом шаге число переменных в уравнении рег­ рессии уменьшается на единицу до тех пор, пока все оставшие­ ся переменные не окажутся значимыми.

Весьма полезно исследование набора семи переменных, пред­ ставляющих характеристики бассейна рек (см. рис. 6.1), с целью возможного исключения каких-либо из них. Исследуя стандар­ тизованные коэффициенты частной регрессии и отбрасывая наи­ меньшие из них и снова вычисляя регрессию, мы можем лапти минимальное множество аргументов регрессии.

Повторное применение программы множественной регрес­ сии, очевидно, менее эффективно, чем использование пошагового вычислительного алгоритма, но оно имеет то преимущество, что каждый шаг процесса может быть тщательно проанализирован. После того как будет достигнуто понимание процессов исклю­ чения и изменения, происходящих при вычислении коэффициен­ тов регрессии, можно обратиться к более автоматизированным алгоритмам.

2 1 8

Хотя по внешним признакам теорию множественной регрес­ сии можно отнести к «многомерным» теориям, так как в ней участвует несколько переменных, измеренных на каждом объ­ екте наблюдения, все же по существу своему она является од­

номерной, так

как мы

имеем дело с дисперсией только одной

зависимой переменной

Y, а поведение независимых переменных

X анализу не подвергается.

Следующая

тема

нашего изложения — дискриминантный

анализ, цель которого — идентификация или распределение объ­ ектов в заранее заданные группы. Разделение на две взаимно исключающие друг друга группы — это процесс, который в вы­ числительном плане является промежуточным между одномер­ ными процедурами и настоящими многомерными методами, в которых много переменных рассматриваются одновременно. Две группы, каждая из которых характеризуется некоторым множеством многомерных переменных, можно разделить с по­ мощью решения некоторого множества совместных уравнений, почти таких же, как те, которые используются в множественной регрессии. Вектор правой части матричного уравнения, однако, не содержит степеней и попарных произведений единственной зависимой переменной, а содержит разности между многомер­ ными средними этих двух групп.

Критерии теории дискриминантных функций включают мно­ гомерные обобщения простых одномерных статистических кри­ териев проверки гипотез о равенстве. Они будут рассмотрены позже, после многомерных методов классификации или распре­ деления объектов в однородные группы. Затем мы рассмотрим методы, в которых используются собственные значения, вклю­ чая метод главных компонент и факторный анализ. Последние параграфы содержат многомерные обобщения дискриминантного анализа и множественной регрессии.

Этот перечень, очевидно, не является исчерпывающим. Одна­ ко рассматриваемые методы были выбраны по той причине, что они нашли применение в науках о Земле. Они включают мно­ жество вычислительных методов и оперируют с рядом фунда­ ментальных понятий. Понимание теории этих методов и соот­ ветствующих ей вычислительных процедур обеспечивает доста­ точную базу для оценки других многомерных методов.

ДИСКРИМИНАНТНЫЕ ФУНКЦИИ

Один из наиболее широко используемых в науках о Земле многомерных методов — дискриминантный анализ. Мы рассмат­ риваем его здесь потому, что, во-первых, он является мощным статистическим методом, и, во-вторых, его можно поставить в один ряд с одномерными задачами, связанными с множествен­ ной регрессией или рассмотренными выше многомерными зада­

2 1 9

чами проверки статистических гипотез. Поэтому он позволяет установить дополнительную связь между одномерной и много­ мерной статистикой.

Определим сначала понятие разделения (дискриминацииJ и покажем, чем оно отличается от близкого к нему понятия клас­ сификации. Предположим, что имеются две группы проб слан­ цев, о которых заранее известно, что они образовались в прес­ новодном и морском бассейнах. Это можно определить на осно­ вании исследования остатков ископаемых организмов. В пробах измерено некоторое число геохимических характеристик, а имен­ но, содержания ванадия, бора, железа и других элементов. За­ дача состоит в нахождении такой линейной комбинации этих переменных, которая даст максимально возможное различие между двумя ранее определенными группами. Если нам удаст­ ся найти такую функцию, то мы сможем использовать ее для отнесения новых образцов к тон или другой исходной группе. Иными словами, новые образцы сланца, не содержащие диагно­ стических ископаемых остатков, можно будет разделить па мор­ ские и пресноводные на основе линейной дискриминантной функ­ ции, построенной по их геохимическим компонентам. (Эта зада­ ча рассматривалась Поттером, Шимпом н Унттерсом [55].)

Задачу классификации можно проиллюстрировать на анало­ гичном примере. Предположим, что мы собрали большую кол­ лекцию образцов сланцев, каждый из которых был подвергнут геохимическому анализу. Можно ли на основе значений изме­ ренных переменных осуществить разделение выборки на относи­ тельно однородные группы (кластеры), отличающиеся друг от друга? Численные методы решения такого рода задач доста­ точно хорошо разработаны и принадлежат к разделу науки, на­ зываемому таксономией. Они будут рассмотрены в следующем разделе. Существует несколько явных различий между этими методами и методами дискриминантного анализа. Классифика­ ция внутренне замкнута, т. е., в отличие от дискриминантного анализа, она не зависит от априорных сведений о соотношении между пробами. В дискриминантном анализе число групп за­ дается заранее, в то время как число кластеров, которые полу­ чаются в результате классификации, не может быть заранее оп­ ределено. Каждая проба из исходного множества в дискрими­ нантном анализе принадлежит к одной из заданных групп. В большинстве задач классификации проба может войти в лю­ бую из групп, возникающих в результате классификации. Дру­ гие различия станут очевидными при рассмотрении этих двух процедур. В результате кластерного анализа сланцев пробы распределяются по группам. Представляет интерес проведение геологического осмысливания найденных таким образом групп.

Простая линейная дискриминантная функция осуществляет преобразование исходного множества измерений, входящих в

220

Р ис. 6.2 . Г р аф и ч еск ое п р ед ста в л ен и е д в у х д в у м ер н ы х р асп р едел ен и й ,

Указаны перекрытия распределений для групп Л и В по осям X i и Х 2; проек­ тирование на дискриминантную линию позволяет различить две группы

выборку, в единственное дискриминантное число. Это число, или преобразованная переменная, определяет положение образ­ ца на прямой, определенной дискриминантной функцией. Поэто­ му мы можем представлять себе дискриминантную функцию как способ преобразования многомерной задачи в одномерную.

Дискриминантный анализ основан на нахождении преобразо­ вания, которое дает минимум отношения разности многомерных средних значений для некоторой пары групп к многомерной дисперсии в пределах двух групп. Если мы изобразим паши две группы совокупностями точек в многомерном пространстве, то легко найти такое направление, вдоль которого эти совокупнос­ ти явно разделяются и в то же время имеют наименьшую вы­ пуклость. Графически эта картина представлена на рис. 6.2. Ес­ ли использовать переменные Xi и Xs, то провести удовлетвори­ тельное разделение групп А и В не удается. Однако можно найти направление, вдоль которого разделение совокупностей очевидно, а выпуклость минимальна. Координаты точек этого

221