Планирование эксперимента - лекция13
.pdfЛекция №13
Корреляционный анализ
Темы:
o Сложности интерпретации
o Коэффициент корреляции, его свойства o Линеаризация и зачем она нужна
o Гипотеза коррелированности o Метод наименьших квадратов o Гипотеза о линейной связи
Сложности интерпретации
Корреляционный анализ – набор статистических методов, позволяющих установить взаимосвязь между несколькими случайными величинами: изменения значений одних переменных сопровождается систематическими изменениями других.
Означает ли статистическая связь причинно-следственную?
Сложности интерпретации
Проблема №1.
Мы можем найти статистическую связь с одним фактором, а истинной причиной является совсем другой фактор, с ним связанный, но в исследовании не учтенный.
Пример. Вредно ли для здоровья употребление в пищу свежих огурцов?
Сложности интерпретации
Пример. Губная помада – сильный канцероген?
Пример. Полезно ли курение для артериального давления?
Репрезентативность
Репрезентативные выборки – корректно сформированные сравниваемые группы, отличающиеся по исследуемому фактору и идентичные по всем остальным.
Однако выделение по какому-то одному фактору обязательно влечет различия и по другим факторам, причем именно они могут быть причиной различий.
Вывод: полностью репрезентативных выборок не существует.
Сложности интерпретации
Проблема №2.
Очень легко перепутать причину и следствие.
Пример. Заболеваемость и смертность лиц, принимающих лекарства, достоверно выше, чем в контрольной группе с таким же составом. Тем не менее, не болезни являются следствием принимаемых лекарств, а наоборот.
Сложности интерпретации
Пример. При анализе заболеваемости кишечными инфекциями жителей города Шевченко была установлена достоверная положительная связь между заболеваемостью дизентерией Флекснера и номером квартиры. Что причина, а что следствие?
Сложности интерпретации
Вывод:
На основании только статистических наблюдений выяснить, что является причиной, а что следствием, нельзя.
Более того, возможна ситуация, когда одновременно наблюдаемые явления вообще не находятся в непосредственной причинноследственной связи.
Коэффициент корреляции
Переменные бывают:
номинальные;
порядковые;
измеряемые.
При анализе связи переменных три варианта:
обе номинальные – критерий «хи-квадрат»
номинальная+измеряемая – критерий Стьюдента или Колмогоров-Смирнов
обе измеряемые – коэффициент корреляции
Коэффициент корреляции
Определение. Смешанным моментом порядка (n,k) случайных величин ξ и η называется математическое ожидание произведения их n-й и k-й степеней:
Mn,k , M n k
Определение. Смешанным центральным моментом порядка (n,k) случайных величин ξ и η называется математическое ожидание произведения n-й и k-й степеней их отклонений от своих средних:
, M M n M k