Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2655

.pdf
Скачиваний:
1
Добавлен:
08.01.2021
Размер:
413.98 Кб
Скачать

11

Система из уравнений общего вида в данном случае будет:

Y = an + bX + cX 2

XY = aX + bX 2 + cX 3

X 2Y = aX 2 + bX 3 + cX 4

Для получения числовых значений данной системы составляется вспомогательная таблица.

Таблица 2.3 Вспомогательные расчеты для вычисления конкретного уравнения

параболы

 

 

 

 

 

 

 

X

Y

Х.Y

Х2

Х2.Y

Х3

Х4

12

16,00

192,00

144

2304,00

1728

20736

 

 

 

 

 

 

 

16

18,00

288,00

256

4608,00

4096

65536

 

 

 

 

 

 

 

20

20,15

403,00

400

8060,00

8000

160000

 

 

 

 

 

 

 

24

22,14

531,36

576

12752,64

13824

331776

 

 

 

 

 

 

 

28

23,48

657,44

784

18408,32

21954

614656

 

 

 

 

 

 

 

32

23,65

756,80

1024

24217,60

32768

1048576

 

 

 

 

 

 

 

36

24,62

886,32

1296

31907,52

46656

1679616

 

 

 

 

 

 

 

40

26,00

1040,00

1600

41600,00

64000

2560000

 

 

 

 

 

 

 

44

27,00

1188,00

1936

52272,00

85184

3747096

 

 

 

 

 

 

 

∑∑ 252

201,04

5942,92

8016

196130,08

278208

10228992

 

 

 

 

 

 

 

Полученные результаты подставляются в вышеприведенную систему из трех уравнений, после решения которых получаем следующие конкретное уравнение:

Y=8,85+0,68.Х-0,006.X2 .

(II)

2.3Оценка точности выравнивания

2.3.1Подготовительные работы. Проверка правильности вычислений

уравнений С целью последующего анализа результатов применения полученных

уравнений вычисляются вероятные (теоретические) значения зависимого признака по первому уравнению (HI) и второму уравнению (HII), которые сравниваются с исходными (опытными) данными (Y). Указанные сравнения

12

(∆ = Y-H) производятся по всем классам Х, а их результат возводится в квадрат (∆2) с целью устранения влияния знака. Данные вычисления показаны в табл.2.4 для прямой линии и табл. 2.5 – для параболы.

Таблица 2.4 Сравнение исходных и вероятных высот деревьев, полученных по

уравнению прямой линии

Исходные данные

Вероятные высоты

Отклонения, м

 

диаметр,

высота,

 

 

 

 

I2

II2

см

м

H I

H II

I

II

X

Y

 

 

 

 

 

 

12

16,00

16,60

17,06

-0,60

-1,06

0,36

1,12

16

18,00

18,00

18,38

0,00

-0,38

0,00

0,14

20

20,15

19,40

19,70

+0,75

+0,45

0,56

0,20

24

22,14

20,80

21,02

+1,34

+1,12

1,80

1,26

28

23,48

22,20

22,34

+1,28

+1,14

1,64

1,30

32

23,65

23,60

23,66

+0,05

-0,01

0,00

0,00

36

24,62

25,00

24,98

-0,38

-0,36

0,14

0,13

40

26,00

26,40

26,40

-0,40

-0,40

0,16

0,16

44

27,00

27,80

27,62

-0,80

-0,62

0,64

0,39

 

 

 

 

 

∑∑

5,30

4,70

Приведенные в табл. 2.4 и 2.5 данные позволяют прежде всего проверить правильность вычислений, выполненных при получении конкретных уравнений, на предмет обнаружения грубых арифметических ошибок.

Правильность вычисления уравнений связи проверяется путем сравнения исходных значений Y с вероятными (Ŷ), полученными по уравнению I (HI) и уравнению II (HII). Критерием правильности вычислений уравнения I будет совпадение вероятных значений HI с исходными значениями Y для тех классов, в которых использованы координаты точек в качестве исходных для получения конкретного уравнения 1. В нашем примере для уравнения прямой линии значение HI равно 18,0, соответствует исходным данным Y во втором классе, то есть также 18,0. Аналогичное положение и в следующем, шестом классе: YI=23,6 практически не отличается от YI =23,65. Совпадение Y и H в остальных классах не обязательно и может наступить только случайно.

Некоторый контроль правильности уравнения II можно получить путем сопоставления Y и HI – во всех классах. В этом случае должно наблюдаться такое сочетание знаков (плюс и минус), которое отражает «срединное»

13

положение выравнивающей прямой между выравниваемыми исходными значениями Y.

Таблица 2.5 Сравнение исходных и вероятных высот деревьев, полученных по

уравнению параболы

Исходные данные

Вероятные высоты

Отклонения, м

 

диаметр,

высота,

 

 

 

 

I2

II2

см

м

HI

HII

I

II

X

Y

 

 

 

 

 

 

12

16,00

16,00

16,15

0

-0,15

0

0,02

16

18,00

18,20

18,17

-0,20

-0,17

0,04

0,03

20

20,15

20,15

19,99

0

+0,16

0

0,03

24

22,14

21,84

21,60

+0,30

+0,54

0,09

0,29

28

23,48

23,27

23,02

+0,21

+0,46

0,04

0,21

32

23,65

24,44

24,23

-0,79

-0,58

0,62

0,34

36

24,62

25,35

25,23

-0,73

-0,61

0,53

0,37

40

26,00

26,00

26,02

0

-0,02

0

0,00

44

27,00

26,40

26,62

+0,60

+0,38

0,36

0,14

 

 

 

 

 

∑∑

1,68

1,43

О явной неправильности полученного уравнения будет свидетельствовать наличие во всех классах только +, равно как и знаков -, а также, если в нескольких начальных классах будут наблюдаться отклонения с одним и тем же знаком (+ или -), а во всех последующих классах с противоположным, а именно:

+ + + + + + +

- - - - - - -

+ + + + - - -

- - - - + + +

Заметим, что описанные критерии правильности вычислений I и II уравнений распространяются и на выравнивание по всем другим линиям связи, в том числе и на уравнение параболы 2-го порядка.

Убедившись в том, что полученные регрессионные уравнения вычислены правильно, можно приступить к оценке точности их «работы», которая может быть выполнена с учетом следующих критериев: мера выравнивая (r1); величина несовпадения исходных и вероятных значений (∆2); среднеквадратическая ошибка уравнения (mY); показатель эффективности уравнения (Fэф).

14

Приведенные критерии необходимы для выбора оптимального уравнения. Подробное описание критериев приводится в последующих разделах.

2.3.2 Мера выравнивания

Показатель меры выравнивания (r1) по Дворецкому [6] вычисляется по формуле

______________

r1 = √(∑α2 - ∑a2) / ∑α2 .

Из анализа формулы видно, что чем выше абсолютное значение r, тем точнее «работает» конкретное уравнение регрессии. Если r1 > 0,95, можно считать, что уравнение аппроксимирует опытные данные достаточно точно (надежно).

Для вычисления ri необходимо, прежде всего, получить среднеарифметическое (Ŷ) из имеющихся опытных значений Y, использовав вышеприведенную (см. раздел 1.1) формулу

N

H = i=1∑Yi / N ,

где N-число наблюдений; Yi-опытные данные отдельных наблюдений; Ŷ

– среднеарифметическое значение из всех опытных данных.

Затем следует вычислить отклонение (α) опытных данных от их среднеарифметического:

α = Ŷ - Yi,

где Ŷ - среднеарифметическое значение из всех опытных данных; Yi – опытные данные.

После этого необходимо определить величину попарных отклонений (∆) опытных и теоретических значений по формуле

N

∆ = ∑ (Yi - Hi),

i=1

где H – теоретические данные по уравнению регрессии.

Результаты расчетов отклонений показаны в табл. 2.6 для уравнения прямой линии и в табл. 2.7 – для параболы.

Подставим полученные значения и в формулу, определим показатель меры выравнивания для уравнения I прямой линии

r1 = (107,22 5,3 )/107,22 = 0,975;

15

для уравнения II прямой линии

r1 = (107,22 4,7 )/107,22 = 0,978;

для уравнения 1 параболы

r1 = (107,22 1,68 )/107,22 = 0,992;

для уравнения 2 параболы

r1 = (107,22 1,43 )/107,22 = 0,993.

Поскольку в нашем примере

r1 = (0,975 ... 0,993) > 0,95,

все четыре анализируемых функции аппроксимируют исследуемую взаимосвязь Д/Н достаточно надежно.

2.3.3 Величина несовпадения исходных и вероятных значений Смысл указанного критерия заключается в том, что чем меньше

отличаются опытные (Y) и теоретические (H) частоты (или иначе, чем меньше величина ∑∆2, тем точнее «работает» уравнение регрессии.

Из итогов табл. 2.4 видно, что точность выравнивания опытных данных по прямой линии для уравнения 1, полученного методом координат избранных точек, выражается величиной ∑∆I2 = 5,3, а для уравнения II, полученного методом наименьших квадратов, - величиной ∑∆II2 = 4,7.

 

 

 

 

 

 

 

 

Таблица 2.6

Вспомогательные расчеты для получения меры выравнивания (r1)

 

опытных данных по уравнению прямой линии

 

 

 

 

 

 

 

 

 

Высоты, м

 

 

Отклонения, м

 

Y

H

α

 

α 2

 

2

(опытные)

(теорети-

 

 

 

 

 

 

 

 

ческие)

|Y-22,34|

 

 

 

 

Y-H

 

 

 

УРАВНЕНИЕ I

 

 

16,00

16,60

6,34

 

40,20

 

-0,60

0,36

18,00

18,00

4,34

 

18,84

 

0,00

0,00

20,15

19,40

2,19

 

4,80

 

+0,75

0,56

22,14

20,80

0,20

 

0,40

 

+1,34

1,80

23,48

22,20

1,14

 

1,30

 

+1,28

1,64

23,65

23,60

1,31

 

1,72

 

+0,05

0,00

24,62

25,00

2,28

 

5,20

 

-0,38

0,14

26,00

26,40

3,66

 

13,40

 

-0,40

0,16

27,00

27,80

4,66

 

21,72

 

-0,80

0,64

∑201,04

 

 

 

∑107,22

 

 

∑5,30

 

 

 

 

=

 

 

 

 

 

 

 

r1

(107,22

5,3

)/107,22

= 0,975 > 0,95

Ŷ=201,04/9=22,34 Вывод: уравнение аппроксимирует опытные данные достаточно точно

16

Окончание табл. 2.6

УРАВНЕНИЕ II

16,00

17,06

6,34

 

40,20

 

-1,06

 

1,12

18,00

18,38

4,34

 

18,84

 

-0,38

 

0,14

20,15

19,70

2,19

 

4,80

 

+0,45

 

0,20

22,14

21,02

0,20

 

0,40

 

+1,12

 

1,26

23,48

22,34

1,14

 

1,30

 

+1,14

 

1,30

23,65

23,66

1,31

 

1,72

 

-1,01

 

0,00

24,62

24,98

2,28

 

5,20

 

-0,36

 

0,13

26,00

26,40

3,66

 

13,40

 

-0,40

 

0,16

27,00

27,62

4,66

 

21,72

 

-0,62

 

0,39

∑201,04

 

 

 

∑107,22

 

 

 

∑4,70

 

 

 

 

 

 

 

= 0,978 > 0,95

 

 

 

rII =

 

(107,22 4,70

)/107,22

Ŷ=201,04/9=22,34 Вывод: уравнение аппроксимирует опытные данные достаточно точно

Таблица 2.7 Вспомогательные расчеты для получения меры выравнивания (r1)

опытных данных по уравнению параболы

Высоты, м

 

 

Отклонения, м

 

Y

H

α

 

α 2

 

2

(опытные)

(теорети-

 

 

 

 

 

 

 

 

 

ческие)

|Y-22,34|

 

 

 

 

Y-H

 

 

 

УРАВНЕНИЕ I

 

 

 

16,00

16,60

6,34

 

40,20

 

0,00

 

0,00

18,00

18,20

4,34

 

18,84

 

-0,20

 

0,04

20,15

20,15

2,19

 

4,80

 

0,00

 

0,00

22,14

21,84

0,20

 

0,40

 

+0,30

 

0,09

23,48

23,27

1,14

 

1,30

 

+0,21

 

0,04

23,65

24,44

1,31

 

1,72

 

-0,79

 

0,62

24,62

25,35

2,28

 

5,20

 

-0,73

 

0,53

26,00

26,00

3,66

 

13,40

 

0,00

 

0,00

27,00

26,40

4,66

 

21,72

 

+0,60

 

0,36

∑201,04

 

 

 

∑107,22

 

 

 

∑1,68

 

 

 

 

 

 

 

= 0,992 > 0,95

 

 

 

r1 =

 

(107,22 1,68

)/107,22

Ŷ=201,04/9=22,34 Вывод: уравнение аппроксимирует опытные данные достаточно точно

УРАВНЕНИЕ II

16,00

16,15

6,34

40,20

-0,15

0,02

18,00

18,17

4,34

18,84

-0,17

0,03

20,15

19,99

2,19

4,80

+0,16

0,03

17

Окончание табл. 2.7

22,14

21,60

0,20

 

0,40

 

+0,54

0,29

23,48

23,02

1,14

 

1,30

 

+0,46

0,21

23,65

24,23

1,31

 

1,72

 

-0,58

0,34

24,62

25,23

2,28

 

5,20

 

-0,61

0,37

26,00

26,02

3,66

 

13,40

 

-0,02

0,00

27,00

26,62

4,66

 

21,72

 

+0,38

0,14

∑201,04

 

 

 

∑107,22

 

 

∑1,43

 

 

 

 

 

 

 

= 0,993 > 0,95

 

 

 

r11 =

 

(107,22 1,43

)/107,22

Ŷ=201,04/9=22,34 Вывод: уравнение аппроксимирует опытные данные достаточно точно

Как и следовало ожидать, более трудоемкий и точный способ наименьших квадратов показал более высокую точность выравнивания.

Выравнивание наблюдений по более сложной регрессии – параболе 2-го порядка характеризуется величиной ∑∆2 =1,68 и ∑∆2 =1,43, а следовательно, обеспечивает увеличение точности выравнивания в сравнении с прямой более чем в три раза. К тому же, как и в уравнении прямой линии, подтверждается более высокая точность работы уравнений, полученных методом наименьших квадратов: ∑∆II2 =1,68 < ∑∆I2 =1,43.

2.3.4 Среднеквадратическая ошибка уравнения Определение среднеквадратической ошибки уравнения производится по

формуле

______

 

my = √∆2/(n-K) ,

где

∆ - величина несовпадения вероятных и исходных значений

зависимого признака; n – количество классов или точек, использованных для вычисления уравнения; К – число коэффициентов уравнения.

Величина mу показывает размер отклонения фактических значений высот деревьев от вероятных, полученных по уравнениям связи. Уравнение будет «работать» тем точнее, чем меньше абсолютная величина mу.

Из приведенных данных видно, что для прямой линии mYII=0,82< mYI= 0,87. Следовательно, точность «работы» уравнения II, вычисленного методом наименьших квадратов, будет незначительно выше (на 5 %), чем 1-го уравнения, полученного гораздо менее трудоемким путем – методом координат избранных точек. Все это свидетельствует о том, что удачный выбор исходных точек позволяет получить вполне удовлетворительные

18

результаты выравнивания и при использовании менее трудоемкого способа – координат избранных точек.

С другой стороны, сравнивая результаты «работы» уравнений прямой и параболы, видно, что в случае использования уравнения параболы ошибка уравнения уменьшается весьма существенно (почти вдвое): 0,49 против 0,82 и 0,53 против 0,87.

Используя результаты вычислений, показанных в табл. 2.4, определим ошибку первого, а затем второго уравнения прямой линии:

 

______

 

_______

 

mYI = √∆I2/(n-K)

=

√5,3/(9-2) = 0,87,

 

______

 

_______

 

mYII = √∆II2/(n-K)

=

√4,7/(9-2) = 0,82.

Проделаем то же самое и для уравнений параболы, используя данные

табл. 2.5:

______

 

_______

 

mYI = √∆I2/(n-K)

=

√1,68/(9-2) = 0,53,

 

______

 

_______

 

mYII = √∆II2/(n-K)

= √1,43/(9-2) = 0,49.

2.3.5 Оценка эффективности уравнения

Оценка эффективности (информационной ценности) уравнения, по данным А.А. Пижурина и М.С. Розенблита [5], производится по формуле

Fэф = S c2 / S o2 , где Fэф - показатель эффективности;

Sc2 - дисперсия относительно среднего значения;

So 2 - остаточная дисперсия.

Величина Fэф показывает, во сколько раз точнее описывает результаты эксперимента полученное уравнение, чем простое среднеарифметическое (Ŷ). Регрессионная модель признается эффективной, если Fэф > 3…5. Таким образом, Fэф является результатом соотношения двух видов выборочных дисперсий (S2), каждая из которых представляет частное от деления суммы квадратов отклонений на число степеней свободы.

Вычисление дисперсий первого вида производится по формулам:

 

2

N

S c

= ∑(Yi - Ŷ)2 / fc , fc = N-1,

 

 

i=1

где S2c - дисперсия относительно среднего значения;

19

N - число опытов (наблюдений);

Yi- опытные данные отдельных наблюдений;

Ŷ - среднеарифметическое значение из всех опытных данных; fc - число степеней свободы дисперсии S2c .

Применительно к символике вышеприведенного раздела 2.3.2

N

∑(Yi=1 i - Ŷ)2 = ∑α2 .

Вычисление дисперсий второго вида производится по формулам

N

S2o = ∑(Yi=1 i - Hi )2 / fo , fo = N-K, где S2o - остаточная дисперсия;

N - число опытов (наблюдений);

Yi -опытные данные отдельных наблюдений;

Hi - теоретические данные по уравнению регрессии; fo- число степеней свободы дисперсии;

K - число коэффициентов уравнения регрессии. Применительно к символике вышеприведенного раздела 2.3.2

N

∑(Yi=1 i - Hi)2 = ∑∆2.

Данные вычислений величины отклонений, числа степеней свободы и дисперсий двух видов, показанных в табл. 2.8, позволят установить, что все анализируемые уравнения, имеющие Fэф = (17,63…55,83), следует признать эффективными.

2.3.6 Выбор оптимальной модели Для удобства обозрения в табл. 2.8 показаны исходные данные для

расчета четырех основных критериев (r1, ∆2, mY, Fэф), необходимых при выборе оптимальной модели для выравнивания наблюдений.

Очевидно, что уравнение будет «работать» тем точнее, чем меньше величина показателей mY, ∆2 и чем больше r1, Fэф. В то же время при выборе оптимального уравнения, кроме этого еще необходимо принимать во внимание следующие обстоятельства.

Во-первых, следует учитывать соответствие выбранной модели природе исследуемого процесса, что требует от экспериментатора наличия специальных знаний.

20

Во-вторых, при прочих равных условиях, следует отдавать предпочтение той модели, которая является более простой и получена менее трудоемким путем.

За применение указанного принципа выбора функции высказывается А.З. Швиденко [3], рекомендующий отдавать предпочтение наиболее простым из них, желательно линейным или тем функциям, которые путем алгебраических преобразований могут быть приведены к линейному виду (показательные, степенные, логарифмические и гиперболические функции).

Учитывая вышеизложенное, выбор оптимальной модели в рассматриваемом примере можно свести к следующему.

Во всех моделях r1 > 0,95; Fэф > (3…5). Соотношение Д/Н соответствует природе исследуемого процесса, то есть с увеличением толщины дерева наблюдается закономерное увеличение его высоты. Следовательно, в качестве оптимальной модели нужно признать одно из уравнений прямой линии как более простое, чем уравнение параболы 2-го порядка. При этом необходимо еще раз подчеркнуть особенности применения метода координат избранных точек. Этот достаточно простой по трудоемкости метод при удачном выборе точек позволяет получить уравнение, точность «работы» которого практически не отличается от уравнения, полученного гораздо более трудоемким путем – методом наименьших квадратов.

Однако в том случае, если руководствоваться абсолютной величиной ∆2, то при более ответственных исследованиях следует отдать предпочтение уравнению параболы, у которого ∑∆2 = (1,43…1,68), что в три раза меньше, чем у прямой, где ∑∆2 = (4,7…5,3). В то же время необходимо иметь в виду, что выражение этих исходных данных по другой линии регрессии (параболе 3- го порядка, гиперболе или других функциях) может позволить подобрать уравнение, обеспечивающее более высокую степень аппроксимации.

3 Моделирование регрессионных связей на ЭВМ

3.1 Содержание программы Моделирование регрессионных связей выполняется с использованием

стстистической диалоговой системы STADIA НПО «Информатика и компьютеры».

В состав системы входят четыре блока со своей системой команд:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]