Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9789

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
3.22 Mб
Скачать

t xy , где t – критерий достоверности, ρxy – коэффициент корреляции, m – m

ошибка репрезентативности

Пример расчета коэффициента ранговой корреляции

Определим характер и силу связи между уровнем молочной кислоты крови (в

мг/%) и длительностью охлаждения организма посредством вычисления коэф-

фициента корреляции по методу рангов (см таблицу).

Таблица.

Длительность

Уровень

 

 

 

 

молочной

 

 

 

 

охлаждения

 

 

 

 

кислоты

х

у

d = x – y

организма в

крови в

 

 

 

 

мин (х)

 

 

 

 

мг/% (у)

 

 

 

 

 

 

 

 

 

1

7,0

1

1

0

0

 

 

 

 

 

 

2

7,2

2

3

-1

1

 

 

 

 

 

 

3

7,1

3

2

1

1

 

 

 

 

 

 

4

7,3

4

4

0

0

 

 

 

 

 

 

5

8,5

5

5

0

0

 

 

 

 

 

 

6

8,9

6

7

-1

1

 

 

 

 

 

 

7

8,7

7

6

1

1

 

 

 

 

 

 

8

9,0

8

8

0

0

9

9,5

9

10

-1

1

10

9,3

10

9

1

1

 

 

1

6 d 2

 

1

 

 

6 62

1

6 36

1 0,04 0,96

XY

 

 

 

 

 

 

 

 

 

 

 

 

 

n(n 2 1)

10(100 1)

990

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

1 2 xy

 

 

1 0,96

2

0,1

 

 

 

n 2

 

 

10 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

0,96

 

9,6

 

 

 

 

 

 

 

 

 

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вывод: выявлена достоверная (p < 0,05) прямая сильная корреляционная зави-

симость между длительностью охлаждения организма и уровнем молочной

кислоты в крови.

Задача 2.

1. Формулировка задачи: найти зависимость среднедушевого потребления

91

сахара в ряде поселков России в год y (кг) от населения поселков x1

(сотни жителей) и от удаленности от места производства x2 (км).

Построим поле корреляции – графики зависимости исследуемого показателя от первого и второго факторов в отдельности.

Зависимость от первого фактора

70

60

50

40

30

20

10

0

10

12

14

16

18

20

22

24

26

28

Зависимость от второго фактора

70

60

50

40

30

20

10

0

0

20

40

60

80

100

120

140

2. Оценка влияния факторов на показатель

Для этого найдем значения коэффициентов парной линейной корреляции между факторами и оценим влияние факторов на показатель. Воспользуемся

 

r

cov( y, x)

формулой

yx

 

 

, которую можно реализовать используя расчеты по

 

 

 

y * x

формулам вычисления ковариации и дисперсий, а также применив статистиче-

92

ские функции электронных таблиц EXCEL «КОВАР», «ДИСП» и «КОРРЕЛ». Получим ryx1 = 0,23 , ryx2 = -0,04, rx1x2 = -0,03. Таким образом, между показа-

телем и первым фактором слабая прямая связь, второй фактор очень слабо свя-

зан с показателем, связь обратная, между факторами очень слабая обратная связь.

3. Построение регрессионной модели

Строить регрессионную модель имеет смысл лишь учитывая влияние пер-

вого фактора на показатель

ˆ

 

 

 

 

 

 

y a bx1 .

 

 

 

 

 

Параметры данной парной линейной регрессии могут быть найдены по ме-

тоду наименьших квадратов (МНК) по формулам:

 

 

 

 

b xy x *y

a y b* x ,

 

 

 

 

 

(x

2

) x

2 ,

или

используя

статистическую

 

 

 

 

 

 

 

 

 

функцию «ЛИНЕЙН».

 

 

 

 

 

 

 

Получим a = 20,4 , b = 0,553, уравнений регрессии имеет вид

 

y = 20,4 + 0,553*x1

 

 

 

 

 

 

 

 

 

 

 

Регрессия от первого фактора

 

 

 

60

y = 0,5534x + 20,404

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 = 0,0549

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

12

 

14

16

18

20

22

24

26

28

Зависимость показателя от фактора x2 приведена ниже

y = 31 - 0,008*x2

4. Оценка статистической значимости уравнений регрессии в целом и по

93

параметра

Оценка статистической значимости уравнений регрессии в целом про-

видится по F- критерию Фишера.

Фактическое значение F- критерия для регрессии от x1 F1=1,05, для ре-

грессии от x2 – F2=0,024. Табличные значения F- критерия для уровней зна-

чимости 5%, 1% и 0,1% равны соответственно FT(10%)=61,6 , FT(5%)=247,3 , FT(1%)= 6191,4. Их можно найти в справочнике или используя функцию

«FРАСПОБР».

Сравнивая фактические значения с табличными, делаем вывод о стати-

стической незначимости (ненадежности) обеих уравнений. Это было оче-

видно, так как значения коэффициентов корреляции показателя и факторов были малы. (Если бы они были больше 0,7 по модулю, то связь была бы близка к линейной).

Значения индекса детерминации для первого уравнения R2=0,0549, для второго уравнения – R2=0,0013. Это очень маленькие значения (максималь-

ное значение индекса 1), следовательно, эти уравнения не описывают долж-

ным образом поведение показателя и им нельзя доверять.

Оценку статистической значимости параметров регрессии выполним по t-критерию Стьюдента, хотя это излишне по причине неадекватности моделей регрессии в целом.

Фактические значения найдем по формулам:

ta

a

 

tb

b

 

m

a

,

m

, а табличные можно найти с помощью функ-

 

 

 

 

 

 

b

ции «СТЬЮДРАСПОБР».

Получим для первого уравнения регрессии ta= 2,05 , tb= 1,02 , таб-

личные значения t табл (10%) = 1,734 , t табл (5%) = 2,101 , t табл (1%) = 2,878. Следовательно, параметр b – коэффициент регрессии не значим,

параметр a значим с вероятностью 90%, но незначим при уровне ошибки

94

5%, хотя это практически ни о чем не говорит.

5. Проверки условий применимости МНК

Для проверки условий применимости МНК вычислим остатки и

построим график остатков от регрессионного значения.

Остатки

30,00

 

 

 

 

 

 

25,00

 

 

 

 

 

 

20,00

 

 

 

 

 

 

15,00

 

 

 

 

 

 

10,00

 

 

 

 

 

 

5,00

 

 

 

 

 

 

0,00

 

 

 

 

 

 

25,00

27,00

29,00

31,00

33,00

35,00

37,00

-5,00

 

 

 

 

 

 

-10,00

-15,00

-20,00

Случайный характер остатков можно определить визуально.

Найдем коэффициент корреляции между текущими уровнями остатков и остатками в предыдущий момент. Он имеет значение 0,199 – это маленькое значение. То есть автокорреляции нет, хотя более точным критерием является критерий Дарбина-Уотсона. Статистика по данным имеет значение 2,1. Это значение в зоне отсутствие автокорреляции, то есть можно говорить об отсут-

ствии автокорреляции остатков.

Гомоскедастичность остатков можно проверить по критерию Голдфелда-

Квандта. Возьмем С=4, построим два уравнения регрессии для первых 8 и по-

следних 8 наблюдений.

Расчеты отображены ниже, так как 0,923 меньше 4,284 , то можно сделать вывод о гомоскедастичности остатков.

S1

256,897

 

S2

237,030

 

 

 

 

 

 

F

 

0,923

 

 

 

 

 

 

 

 

 

F

табл

4,284

 

 

 

 

 

 

95

 

 

5%

 

 

 

 

 

 

 

F

табл

 

 

 

 

 

 

1%

 

8,466

 

 

 

 

 

Таким образом, предпосылки МНК не нарушены.

 

6. Расчет средней ошибки аппроксимации

Оценить качество построенной модели можно и с помощью средней

ошибки аппроксимации, значение которой принято определять в процентах по

следующей формуле

A

1

n

 

y yˆ

 

100

 

 

 

i i

 

 

 

 

n i 1

 

y

 

 

 

 

 

 

i

 

 

Если средняя ошибка аппроксимации А<7–10%, то модель хорошо соот-

ветствует реальным данным.

средняя ошибка аппроксимации не должна превышать 12–15%

7. Прогноз значения показателя Выполним точечный прогноз для значения фактора на 35% большего сред-

него значения. Среднее x1 – 18, прогноз сделаем для x1=24,37. y(24,37)= 20,4 + 0,553*24,37=33,89.

Кроме точечного прогноза, ищут интервальный прогноз.

Расчет интервалов прогноза по линейному уравнению регрессии.

В прогнозных расчетах по уравнению регрессии определяется предсказы-

ваемое значения показателей y , как точечный прогноз yˆ , при интересующем

 

 

 

 

 

 

 

 

 

 

ˆ

 

поле хпрог , то есть путем подстановки в уравнение регрессии ( y a bхпрог ), ин-

тересующего значения x , для которого делается прогноз.

 

Этот прогноз необходимо дополнить расчетом ошибки Стьюдента ( myˆ ) и

соответствующей интервальной оценкой прогнозируемого значения y .

 

yˆ t m

yˆ

y yˆ t m

yˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

1

1

 

хпрог x

2

– средняя прогнозируемая ошибка, где

x – это

yˆ

 

xi x 2

 

 

 

 

 

 

n

 

 

i

 

 

 

 

 

 

 

 

 

 

96

 

конкретное значение, а хпрог – это прогнозное значение х.

Из анализа формулы видно, что значение yˆ минимально при xпрог x

Ошибка myˆ увеличивается, если xпрогн удаляется от x .

Для прогнозируемого значения yˆ можно определить доверительные ин-

тервалы при заданном xk . yˆxk t my границы

– уровень значимости

t – табличное или с помощью =СТЬЮРАСПОБР.

Указание по проведению дисперсионного и регрессионного анализа.

Регрессия позволяет проанализировать воздействие на какую-либо зависи-

мую переменную одной или более независимых переменных и позволяет уста-

новить аналитическую форму (модель) этой зависимости в виде аппроксими-

рующего полинома.

Если рассматривается зависимость между одной зависимой переменной у и

несколькими независимыми х1, х2, ..., хп, то речь идет о множественной линей-

ной регрессии. В этом случае уравнение регрессии имеет вид у = а0 + а1х1 + а2х2+...+ апхп,

где а1, а2 ... ап – коэффициенты при независимых переменных, которые нужно вычислить (коэффициенты регрессии); ао – константа.

В табличном процессоре можно аппроксимировать экспериментальные данные линейным уравнением до 16-го порядка у = а0 + а1х1 + а2х2+...+ а16х16.

Для вычисления коэффициентов регрессии служит инструмент Регрессия,

который можно включить следующей последовательностью операций.

1.Выполнить команду Сервис/Анализ данных.

2.В раскрывшемся окне диалога Анализ данных выбрать из списка строку Регрессия – раскроется окно диалога Регрессия.

3.Заполнить все поля необходимыми данными.

97

Кроме инструмента Регрессия в табличном процессоре для получения па-

раметров уравнения регрессии есть функция ЛИНЕЙН и функция ТЕНДЕН-

ЦИЯ для получения значения у в требуемых точках.

Методы дисперсионного анализа используются для оценки достоверности различий между несколькими группами наблюдений. Задача дисперсионного анализа заключается в исследовании воздействия на изменяемую случайную величину одного или нескольких независимых факторов, имеющих несколько градации.

В табличном процессоре для проведения однофакторного диспер-

сионного анализа применяется инструмент Однофакторный дисперсионный анализ. Кроме этого инструмента в табличном процессор, есть инструменты Двухфакторный дисперсионный анализ с повторениями и Двухфакторный дисперсионный анализ без повторений.

Для выполнения дисперсионного анализа необходимо выполнить сле-

дующую последовательность операций:

1. Сформировать таблицу данных таким образом, чтобы в каждом столбце рабочего листа были представлены данные, соответствующие одно-

му значению исследуемого фактора, при этом столбцы должны располагаться

впорядке возрастания (убывания) исследуемого фактора.

2.Выполнить команду меню Сервис/Анализ данных. В. диалоговом окне Анализ данных в списке Инструменты анализа выбрать инструмент Однофак-

торный дисперсионный анализ, щелкнуть на кнопку ОК.

3.Заполнить все поля необходимыми данными.

Задачи для раздела 5. Теоретические основы построения

имитационных моделей (ИМ). Метод статистического моделирования.

Технология имитационного моделирования в среде ППП EXCEL

Проведение имитационных экспериментов в среде ППП EXCEL можно осуществить двумя способами – с помощью встроенных функций и путем ис-

98

пользования инструмента "Генератор случайных чисел" дополнения "Анализ данных" (Analysis ToolPack).

Применение встроенных функций целесообразно лишь в том случае, когда вероятности реализации всех значений случайной величины считаются одина-

ковыми. Тогда для имитации значений требуемой переменной можно восполь-

зоваться математическими функциями СЛЧИС() или СЛУЧМЕЖДУ(). Форма-

ты функций приведены в таблице.

Таблица. Математические функции для генерации случайных чисел

Наименование функции

Формат функции

 

 

 

 

 

 

Оригинальная

Локализованная

 

версия

версия

 

 

 

 

 

 

 

RAND

СЛЧИС

СЛЧИС() – не имеет аргументов

 

 

 

 

 

 

RANDBETWEEN

СЛУЧМЕЖДУ

СЛУЧМЕЖДУ(нижн_граница;

 

 

верхн_граница)

 

 

 

 

 

 

Функция СЛЧИС() возвращает равномерно распределенное случайное число E, большее, либо равное 0 и меньшее 1, т.е.: 0 E < 1. Вместе с тем, пу-

тем несложных преобразований, с ее помощью можно получить любое случай-

ное вещественное число. Например, чтобы получить случайное число между a

и b, достаточно задать в любой ячейке ЭТ следующую формулу: =СЛЧИС()*(b-a)+a

Эта функция не имеет аргументов. Если в ЭТ установлен режим автомати-

ческих вычислений, принятый по умолчанию, то возвращаемый функцией ре-

зультат будет изменяться всякий раз, когда происходит ввод или корректировка

99

данных. В режиме ручных вычислений пересчет всей ЭТ осуществляется толь-

ко после нажатия клавиши [F9].

Настройка режима управления вычислениями производится установкой соответствующего флажка в подпункте "Вычисления" пункта "Параметры" те-

мы "Сервис" главного меню.

В целом применение данной функции при решении задач финансового анализа ограничено рядом специфических приложений. Однако ее удобно ис-

пользовать в некоторых случаях для генерации значений вероятности событий,

а также вещественных чисел.

Функция СЛУЧМЕЖДУ(нижн_граница; верхн_граница)

Как следует из названия этой функции, она позволяет получить случайное число из заданного интервала. При этом тип возвращаемого числа (т.е. веще-

ственное или целое) зависит от типа заданных аргументов.

В качестве примера, введите в любую ячейку ЭТ формулу:

=СЛУЧМЕЖДУ(150; 300)

Результат – любое число из заданного диапазона.

Имитация с инструментом "Генератор случайных чисел"

Этот инструмент предназначен для автоматической генерации множества данных (генеральной совокупности) заданного объема, элементы которого ха-

рактеризуются определенным распределением вероятностей. При этом могут быть использованы 7 типов распределений: равномерное, нормальное, Бернул-

ли, Пуассона, биномиальное, модельное и дискретное. Применение инструмен-

та "Генератор случайных чисел", как и большинства используемых в этой рабо-

те функций, требует установки специального дополнения "Пакет анализа".

Выберите в главном меню тему "Сервис" пункт "Анализ данных". Резуль-

татом выполнения этих действий будет появление диалогового окна

"Анализ данных", содержащего список инструментов анализа.

Выберите из списка "Инструменты анализа" пункт "Генерация случайных

чисел" и нажмите кнопку "ОК".

100

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]