9789
.pdft xy , где t – критерий достоверности, ρxy – коэффициент корреляции, m – m
ошибка репрезентативности
Пример расчета коэффициента ранговой корреляции
Определим характер и силу связи между уровнем молочной кислоты крови (в
мг/%) и длительностью охлаждения организма посредством вычисления коэф-
фициента корреляции по методу рангов (см таблицу).
Таблица.
Длительность |
Уровень |
|
|
|
|
|
молочной |
|
|
|
|
||
охлаждения |
|
|
|
|
||
кислоты |
х |
у |
d = x – y |
d² |
||
организма в |
||||||
крови в |
|
|
|
|
||
мин (х) |
|
|
|
|
||
мг/% (у) |
|
|
|
|
||
|
|
|
|
|
||
1 |
7,0 |
1 |
1 |
0 |
0 |
|
|
|
|
|
|
|
|
2 |
7,2 |
2 |
3 |
-1 |
1 |
|
|
|
|
|
|
|
|
3 |
7,1 |
3 |
2 |
1 |
1 |
|
|
|
|
|
|
|
|
4 |
7,3 |
4 |
4 |
0 |
0 |
|
|
|
|
|
|
|
|
5 |
8,5 |
5 |
5 |
0 |
0 |
|
|
|
|
|
|
|
|
6 |
8,9 |
6 |
7 |
-1 |
1 |
|
|
|
|
|
|
|
|
7 |
8,7 |
7 |
6 |
1 |
1 |
|
|
|
|
|
|
|
|
8 |
9,0 |
8 |
8 |
0 |
0 |
|
9 |
9,5 |
9 |
10 |
-1 |
1 |
|
10 |
9,3 |
10 |
9 |
1 |
1 |
|
|
1 |
6 d 2 |
|
1 |
|
|
6 62 |
1 |
6 36 |
1 0,04 0,96 |
|||||
XY |
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
n(n 2 1) |
10(100 1) |
990 |
|
|||||||||
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
m |
1 2 xy |
|
|
1 0,96 |
2 |
0,1 |
|
|
|
|||||||
n 2 |
|
|
10 2 |
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
t |
0,96 |
|
9,6 |
|
|
|
|
|
|
|
|
|
||||
0,1 |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вывод: выявлена достоверная (p < 0,05) прямая сильная корреляционная зави-
симость между длительностью охлаждения организма и уровнем молочной
кислоты в крови.
Задача 2.
1. Формулировка задачи: найти зависимость среднедушевого потребления
91
сахара в ряде поселков России в год y (кг) от населения поселков x1
(сотни жителей) и от удаленности от места производства x2 (км).
Построим поле корреляции – графики зависимости исследуемого показателя от первого и второго факторов в отдельности.
Зависимость от первого фактора
70
60
50
40
30
20
10
0
10 |
12 |
14 |
16 |
18 |
20 |
22 |
24 |
26 |
28 |
Зависимость от второго фактора
70
60
50
40
30
20
10
0
0 |
20 |
40 |
60 |
80 |
100 |
120 |
140 |
2. Оценка влияния факторов на показатель
Для этого найдем значения коэффициентов парной линейной корреляции между факторами и оценим влияние факторов на показатель. Воспользуемся
|
r |
cov( y, x) |
||
формулой |
yx |
|
|
, которую можно реализовать используя расчеты по |
|
|
|
y * x |
формулам вычисления ковариации и дисперсий, а также применив статистиче-
92
ские функции электронных таблиц EXCEL «КОВАР», «ДИСП» и «КОРРЕЛ». Получим ryx1 = 0,23 , ryx2 = -0,04, rx1x2 = -0,03. Таким образом, между показа-
телем и первым фактором слабая прямая связь, второй фактор очень слабо свя-
зан с показателем, связь обратная, между факторами очень слабая обратная связь.
3. Построение регрессионной модели
Строить регрессионную модель имеет смысл лишь учитывая влияние пер-
вого фактора на показатель |
ˆ |
|
|
|
|
|
|
|||
y a bx1 . |
|
|
|
|
|
|||||
Параметры данной парной линейной регрессии могут быть найдены по ме- |
||||||||||
тоду наименьших квадратов (МНК) по формулам: |
|
|
|
|
||||||
b xy x *y |
a y b* x , |
|
|
|
|
|
||||
(x |
2 |
) x |
2 , |
или |
используя |
статистическую |
||||
|
|
|
|
|
|
|
|
|
||
функцию «ЛИНЕЙН». |
|
|
|
|
|
|
|
|||
Получим a = 20,4 , b = 0,553, уравнений регрессии имеет вид |
|
|||||||||
y = 20,4 + 0,553*x1 |
|
|
|
|
|
|
||||
|
|
|
|
|
Регрессия от первого фактора |
|
|
|
||
60 |
y = 0,5534x + 20,404 |
|
|
|
|
|
||||
|
|
|
|
|
|
|
||||
|
|
|
R2 = 0,0549 |
|
|
|
|
|
|
|
50 |
|
|
|
|
|
|
|
|
|
|
40 |
|
|
|
|
|
|
|
|
|
|
30 |
|
|
|
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
12 |
|
14 |
16 |
18 |
20 |
22 |
24 |
26 |
28 |
Зависимость показателя от фактора x2 приведена ниже
y = 31 - 0,008*x2
4. Оценка статистической значимости уравнений регрессии в целом и по
93
параметра
Оценка статистической значимости уравнений регрессии в целом про-
видится по F- критерию Фишера.
Фактическое значение F- критерия для регрессии от x1 F1=1,05, для ре-
грессии от x2 – F2=0,024. Табличные значения F- критерия для уровней зна-
чимости 5%, 1% и 0,1% равны соответственно FT(10%)=61,6 , FT(5%)=247,3 , FT(1%)= 6191,4. Их можно найти в справочнике или используя функцию
«FРАСПОБР».
Сравнивая фактические значения с табличными, делаем вывод о стати-
стической незначимости (ненадежности) обеих уравнений. Это было оче-
видно, так как значения коэффициентов корреляции показателя и факторов были малы. (Если бы они были больше 0,7 по модулю, то связь была бы близка к линейной).
Значения индекса детерминации для первого уравнения R2=0,0549, для второго уравнения – R2=0,0013. Это очень маленькие значения (максималь-
ное значение индекса 1), следовательно, эти уравнения не описывают долж-
ным образом поведение показателя и им нельзя доверять.
Оценку статистической значимости параметров регрессии выполним по t-критерию Стьюдента, хотя это излишне по причине неадекватности моделей регрессии в целом.
Фактические значения найдем по формулам:
ta |
a |
|
tb |
b |
|
||
m |
a |
, |
m |
, а табличные можно найти с помощью функ- |
|||
|
|
||||||
|
|
|
|
b |
ции «СТЬЮДРАСПОБР».
Получим для первого уравнения регрессии ta= 2,05 , tb= 1,02 , таб-
личные значения t табл (10%) = 1,734 , t табл (5%) = 2,101 , t табл (1%) = 2,878. Следовательно, параметр b – коэффициент регрессии не значим,
параметр a значим с вероятностью 90%, но незначим при уровне ошибки
94
5%, хотя это практически ни о чем не говорит.
5. Проверки условий применимости МНК
Для проверки условий применимости МНК вычислим остатки и
построим график остатков от регрессионного значения.
Остатки
30,00 |
|
|
|
|
|
|
25,00 |
|
|
|
|
|
|
20,00 |
|
|
|
|
|
|
15,00 |
|
|
|
|
|
|
10,00 |
|
|
|
|
|
|
5,00 |
|
|
|
|
|
|
0,00 |
|
|
|
|
|
|
25,00 |
27,00 |
29,00 |
31,00 |
33,00 |
35,00 |
37,00 |
-5,00 |
|
|
|
|
|
|
-10,00
-15,00
-20,00
Случайный характер остатков можно определить визуально.
Найдем коэффициент корреляции между текущими уровнями остатков и остатками в предыдущий момент. Он имеет значение 0,199 – это маленькое значение. То есть автокорреляции нет, хотя более точным критерием является критерий Дарбина-Уотсона. Статистика по данным имеет значение 2,1. Это значение в зоне отсутствие автокорреляции, то есть можно говорить об отсут-
ствии автокорреляции остатков.
Гомоскедастичность остатков можно проверить по критерию Голдфелда-
Квандта. Возьмем С=4, построим два уравнения регрессии для первых 8 и по-
следних 8 наблюдений.
Расчеты отображены ниже, так как 0,923 меньше 4,284 , то можно сделать вывод о гомоскедастичности остатков.
S1 |
256,897 |
|
S2 |
237,030 |
|
|
|
|
|
|
|
F |
|
0,923 |
|
|
|
|
|
|
|
|
|
F |
табл |
4,284 |
|
|
|
|
|
|
95 |
|
|
5% |
|
|
|
|
|
|
|
F |
табл |
|
|
|
|
|
|
1% |
|
8,466 |
|
|
|
|
|
Таким образом, предпосылки МНК не нарушены. |
||||||
|
6. Расчет средней ошибки аппроксимации |
||||||
Оценить качество построенной модели можно и с помощью средней |
|||||||
ошибки аппроксимации, значение которой принято определять в процентах по |
|||||||
следующей формуле |
A |
1 |
n |
|
y yˆ |
|
100 |
|
|
|
i i |
|
||
|
|
|||||
|
n i 1 |
|
y |
|
|
|
|
|
|
|
i |
|
|
Если средняя ошибка аппроксимации А<7–10%, то модель хорошо соот-
ветствует реальным данным.
средняя ошибка аппроксимации не должна превышать 12–15%
7. Прогноз значения показателя Выполним точечный прогноз для значения фактора на 35% большего сред-
него значения. Среднее x1 – 18, прогноз сделаем для x1=24,37. y(24,37)= 20,4 + 0,553*24,37=33,89.
Кроме точечного прогноза, ищут интервальный прогноз.
Расчет интервалов прогноза по линейному уравнению регрессии.
В прогнозных расчетах по уравнению регрессии определяется предсказы-
ваемое значения показателей y , как точечный прогноз yˆ , при интересующем
|
|
|
|
|
|
|
|
|
|
ˆ |
|
поле хпрог , то есть путем подстановки в уравнение регрессии ( y a bхпрог ), ин- |
|||||||||||
тересующего значения x , для которого делается прогноз. |
|
||||||||||
Этот прогноз необходимо дополнить расчетом ошибки Стьюдента ( myˆ ) и |
|||||||||||
соответствующей интервальной оценкой прогнозируемого значения y . |
|
||||||||||
yˆ t m |
yˆ |
y yˆ t m |
yˆ |
|
|
||||||
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
1 |
1 |
|
хпрог x |
2 |
– средняя прогнозируемая ошибка, где |
x – это |
||
yˆ |
|
xi x 2 |
|||||||||
|
|||||||||||
|
|
|
|
|
n |
|
|
i |
|||
|
|
|
|
|
|
|
|
|
|
96 |
|
конкретное значение, а хпрог – это прогнозное значение х.
Из анализа формулы видно, что значение yˆ минимально при xпрог x
Ошибка myˆ увеличивается, если xпрогн удаляется от x .
Для прогнозируемого значения yˆ можно определить доверительные ин-
тервалы при заданном xk . yˆxk t my границы
– уровень значимости
t – табличное или с помощью =СТЬЮРАСПОБР.
Указание по проведению дисперсионного и регрессионного анализа.
Регрессия позволяет проанализировать воздействие на какую-либо зависи-
мую переменную одной или более независимых переменных и позволяет уста-
новить аналитическую форму (модель) этой зависимости в виде аппроксими-
рующего полинома.
Если рассматривается зависимость между одной зависимой переменной у и
несколькими независимыми х1, х2, ..., хп, то речь идет о множественной линей-
ной регрессии. В этом случае уравнение регрессии имеет вид у = а0 + а1х1 + а2х2+...+ апхп,
где а1, а2 ... ап – коэффициенты при независимых переменных, которые нужно вычислить (коэффициенты регрессии); ао – константа.
В табличном процессоре можно аппроксимировать экспериментальные данные линейным уравнением до 16-го порядка у = а0 + а1х1 + а2х2+...+ а16х16.
Для вычисления коэффициентов регрессии служит инструмент Регрессия,
который можно включить следующей последовательностью операций.
1.Выполнить команду Сервис/Анализ данных.
2.В раскрывшемся окне диалога Анализ данных выбрать из списка строку Регрессия – раскроется окно диалога Регрессия.
3.Заполнить все поля необходимыми данными.
97
Кроме инструмента Регрессия в табличном процессоре для получения па-
раметров уравнения регрессии есть функция ЛИНЕЙН и функция ТЕНДЕН-
ЦИЯ для получения значения у в требуемых точках.
Методы дисперсионного анализа используются для оценки достоверности различий между несколькими группами наблюдений. Задача дисперсионного анализа заключается в исследовании воздействия на изменяемую случайную величину одного или нескольких независимых факторов, имеющих несколько градации.
В табличном процессоре для проведения однофакторного диспер-
сионного анализа применяется инструмент Однофакторный дисперсионный анализ. Кроме этого инструмента в табличном процессор, есть инструменты Двухфакторный дисперсионный анализ с повторениями и Двухфакторный дисперсионный анализ без повторений.
Для выполнения дисперсионного анализа необходимо выполнить сле-
дующую последовательность операций:
1. Сформировать таблицу данных таким образом, чтобы в каждом столбце рабочего листа были представлены данные, соответствующие одно-
му значению исследуемого фактора, при этом столбцы должны располагаться
впорядке возрастания (убывания) исследуемого фактора.
2.Выполнить команду меню Сервис/Анализ данных. В. диалоговом окне Анализ данных в списке Инструменты анализа выбрать инструмент Однофак-
торный дисперсионный анализ, щелкнуть на кнопку ОК.
3.Заполнить все поля необходимыми данными.
Задачи для раздела 5. Теоретические основы построения
имитационных моделей (ИМ). Метод статистического моделирования.
Технология имитационного моделирования в среде ППП EXCEL
Проведение имитационных экспериментов в среде ППП EXCEL можно осуществить двумя способами – с помощью встроенных функций и путем ис-
98
пользования инструмента "Генератор случайных чисел" дополнения "Анализ данных" (Analysis ToolPack).
Применение встроенных функций целесообразно лишь в том случае, когда вероятности реализации всех значений случайной величины считаются одина-
ковыми. Тогда для имитации значений требуемой переменной можно восполь-
зоваться математическими функциями СЛЧИС() или СЛУЧМЕЖДУ(). Форма-
ты функций приведены в таблице.
Таблица. Математические функции для генерации случайных чисел
Наименование функции |
Формат функции |
|
|
|
|
|
|
|
Оригинальная |
Локализованная |
|
версия |
версия |
|
|
|
|
|
|
|
RAND |
СЛЧИС |
СЛЧИС() – не имеет аргументов |
|
|
|
|
|
|
RANDBETWEEN |
СЛУЧМЕЖДУ |
СЛУЧМЕЖДУ(нижн_граница; |
|
|
верхн_граница) |
|
|
|
|
|
|
Функция СЛЧИС() возвращает равномерно распределенное случайное число E, большее, либо равное 0 и меньшее 1, т.е.: 0 E < 1. Вместе с тем, пу-
тем несложных преобразований, с ее помощью можно получить любое случай-
ное вещественное число. Например, чтобы получить случайное число между a
и b, достаточно задать в любой ячейке ЭТ следующую формулу: =СЛЧИС()*(b-a)+a
Эта функция не имеет аргументов. Если в ЭТ установлен режим автомати-
ческих вычислений, принятый по умолчанию, то возвращаемый функцией ре-
зультат будет изменяться всякий раз, когда происходит ввод или корректировка
99
данных. В режиме ручных вычислений пересчет всей ЭТ осуществляется толь-
ко после нажатия клавиши [F9].
Настройка режима управления вычислениями производится установкой соответствующего флажка в подпункте "Вычисления" пункта "Параметры" те-
мы "Сервис" главного меню.
В целом применение данной функции при решении задач финансового анализа ограничено рядом специфических приложений. Однако ее удобно ис-
пользовать в некоторых случаях для генерации значений вероятности событий,
а также вещественных чисел.
Функция СЛУЧМЕЖДУ(нижн_граница; верхн_граница)
Как следует из названия этой функции, она позволяет получить случайное число из заданного интервала. При этом тип возвращаемого числа (т.е. веще-
ственное или целое) зависит от типа заданных аргументов.
В качестве примера, введите в любую ячейку ЭТ формулу:
=СЛУЧМЕЖДУ(150; 300)
Результат – любое число из заданного диапазона.
Имитация с инструментом "Генератор случайных чисел"
Этот инструмент предназначен для автоматической генерации множества данных (генеральной совокупности) заданного объема, элементы которого ха-
рактеризуются определенным распределением вероятностей. При этом могут быть использованы 7 типов распределений: равномерное, нормальное, Бернул-
ли, Пуассона, биномиальное, модельное и дискретное. Применение инструмен-
та "Генератор случайных чисел", как и большинства используемых в этой рабо-
те функций, требует установки специального дополнения "Пакет анализа".
Выберите в главном меню тему "Сервис" пункт "Анализ данных". Резуль-
татом выполнения этих действий будет появление диалогового окна
"Анализ данных", содержащего список инструментов анализа.
Выберите из списка "Инструменты анализа" пункт "Генерация случайных
чисел" и нажмите кнопку "ОК".
100