Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Таблица 7.2

Некоторые дополнительные виды преобразования переменных

 

 

 

Линеаризующие

 

 

Функция

 

преобразования

 

Преобразованное

преобразование

выражения

п/п

иеёграфик

уравнение

переменных

дляb0

иb1

 

 

 

 

 

y′

 

x′

b0

 

b1

 

1

y = b0 + b1 / x,

y

 

1 / x

b0

 

b1

y = b0 + b1 (1 / x)

рис. 7.12

 

 

 

 

 

 

 

 

 

 

2

y = 1 / (b0 + b1x),

 

 

 

 

 

 

1 / y = b0 + b1x

график прямолиней-

1 / y

 

x

b0

 

b1

 

ной зависимости

 

 

 

 

 

 

 

3

y = x / (b0 + b1x),

 

 

 

 

 

 

1 / y = b0 + b1 / x

график прямолиней-

1 / y

 

1 / x

b0

 

b1

 

ной зависимости

 

 

 

 

 

 

 

4

y = b0b1x,

ln (y)

 

x

ln (b0)

ln (b1)

ln (y) = ln (b0) +

похож на рис. 7.8

 

+ хln (b1)

5

y = b0eb1x,

ln (y)

 

x

ln (b0)

 

b1

ln (y) = ln (b0) + b1х

рис. 7.6, 7.18

 

 

 

 

 

 

 

 

 

 

6

y = 1 / (b0 + b1 e−x),

1 / y

 

e–x

b0

 

b1

1 / y = b0 + b1 e–x

 

рис. 7.17, а

 

 

 

 

 

 

 

7

y = b0xb1,

ln (y)

 

ln (x)

ln (b0)

 

b1

ln (y) = ln (b0) +

похож на рис. 7.15

 

 

+ b1ln (x)

8

y = b0 + b1lg (x),

y

 

lg (x)

b0

 

b1

y = b0 + b1lg (x)

 

похож на рис. 7.7

 

 

 

 

 

 

 

9

y = b0 / (b1 + x),

1 / y

 

 

b1 / b0

 

1 / b

1 / y = b1 / b0 +

похож на правую

 

x

 

 

 

+ х b1 / b0

 

часть рис. 7.14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

y = b0x / (b1 + x),

1 / y

 

1 / x

b1 / b0

 

1 / b1

1 / y =

похожнарис.7.17, б

 

 

= b1 / b0 + 1 / b1·1 / x

11

y = b0eb1 / x,

ln (y)

 

1 / x

ln (b0)

 

b1

ln (y) = ln (b0) + b1 / x

похож на рис. 7.6

 

 

12

y = b0 + b1 xn,

y

 

xn

b0

 

b1

y = b0 + b1 xn

 

рис. 7.2, 7.11

 

 

 

 

 

 

 

241

а

б

Рис. 7.17. Графики функций:

а) y = 1 / (2,5 + 3,4ex); б) y = 2x / (0,25 + x)

Рис. 7.18. График функции y = 2,5e2,5x

Чаще всего коэффициенты эластичности применяются в анализе производственных функций. Использование коэффициентов эластичности в качестве дополнения к коэффициентам регрессии расширяет возможности сопоставления и экономической интерпретации результатов. Вместе с тем их расчёт не всегда имеет смысл, поскольку в некоторых случаях интерпретация факторных переменных в процентном отношении невозможна или бессмысленна [1; 51].

242

7.5.3. Некоторые вопросы спецификации регрессионных моделей

Преобразование данных открывает широкие возможности использования нелинейных зависимостей. При этом качество модели будет зависеть от спецификации уравнения.

Результаты ошибок спецификации переменных в уравнениях регрессии можно резюмировать следующим образом:

1.Если в уравнение не включен аргумент, который должен присутствовать, то оценки коэффициентов регрессии в ряде случаев могут быть смещенными. Тогда стандартные ошибки коэффициентов и соответствующие тесты Стьюдента на значимость аргумента в целом становятся некорректными.

2.Если в уравнение введена переменная, которая не должна

внём присутствовать, то оценки коэффициентов регрессии будут несмещенными, однако (не всегда) неэффективными. Стандартные ошибки будут в целом корректны, но из-за неэффективности регрессионных оценок они будут излишне большими.

Таким образом, неправильные постановка и решение этих задач приводят к появлению в создаваемых моделях ошибок спецификации.

Можно заметить, что при проведении анализа глубинных процессов природных явлений, геологических тел и объектов горного производства приходится постоянно сталкиваться с нехваткой исходных данных. В процессе сбора данных некоторые переменные невозможно измерить, другие поддаются измерению, но это достигается большими затратами времени и ресурсов. В таких случаях вместо отсутствующих переменных полезно использовать некоторые их заменители. Возможно и использование одного аргумента с разными степенями, особенно в полиномиальной регрессии. В этом случае должно уделяться внимание исследователя таким вопросам, как определение значимости регрессоров, проверка мультиколлинеарности и т.д. В целом работоспособной является модель с правильной спецификацией. Это

243

означает, что уравнение регрессии достаточно надежно определяет соотношение между исследуемыми горно-геологическими показателями.

Если в исследованиях горного производства допустить создание любого типа уравнения между зависимой и независимыми переменными, не вдаваясь в смысл, возникает несколько вопросов [51].

Во-первых, как трактовать полученную функцию с точки зрения простых практических рекомендаций. С этой позиции линейная зависимость очень удобна, так как позволяет дать простое толкование: «чем больше x (к примеру, чем больше камера), тем больше y (тем больше времени нужно, чтобы её отработать)». Задавая конкретные приращения x, можно ожидать пропорциональное приращение y. Нелинейные соотношения обычно нельзя так просто проинтерпретировать и выразить аналогичными логическими связями.

Во-вторых, как проверить существование по факту выведенной нелинейной зависимости и её границ. В случае нелинейности связи определение степенитесноты связисоотносится с проблемой изучения аналитическойформы связи (коэффициент корреляции вэтомслучаепрямозависитотвыбраннойформысвязи).

Параболическую связь можно распознать по равномерному изменению влияния независимой переменной на зависимую по мере изменения величины фактора. Например, высотная отметка почвы пласта в антиклинальной складке растет с приближением пикетов к замку складки, после чего она понижается.

Гиперболические зависимости характеризуют связи, при которых зависимый признак имеет некий предел, по мере достижения которого его рост замедляется. Подобные связи встречаются при исследованиях эффективности использования оборудования (комбайны, конвейеры и др.), когда его производительность растет до определенного максимального уровня, по мере приближения к которому постепенно замедляется.

244

Таким образом, для построения адекватной регрессионной модели нужно попытаться найти функцию, которая наилучшим способом описывает данные. В ряде случаев для принятия обоснованного решения по выбору вида модели приходится проводить сравнительный анализ нескольких уравнений. Для этого требуется выбрать критерии, с помощью которых будет проводиться сравнение. Помимо использующихся статистических методов отбора при сравнениимоделейприменяютсяследующиеусловия:

1.Простота. При прочих равных условиях приоритет отдаетсямодели,имеющейменьшеечислообъясняющихпеременных.

2.Максимальное соответствие, определяемое величиной коэффициента детерминации.

3.Согласованность с теорией. Если уравнение (вид функции, знак при параметре регрессии) не соответствует теоретическим предпосылкам, оно не может быть признано качественным.

4.Прогнозные качества. Полученные при помощи модели значения должны подтверждаться реальностью.

Идея метода наименьших квадратов основана на том, чтобы минимизировать сумму квадратов отклонений расчетных значений уравнения от эмпирических. Для решения этой задачи составляется система алгебраических уравнений. Но в отличие от линейной регрессии для нелинейных моделей необходимо созда-

вать систему нелинейных алгебраических уравнений. Решить аналитически такую систему уравнений, как правило, уже невозможно. Её можно решить численно, но такие решения затрудняют проведение статистического анализа модели, т.е. сложно или невозможно оценить значимость коэффициентов регрессии, построить для них доверительные интервалы, оценить качество уравнения регрессии в целом, оценить точность прогноза, использовать критерии Стьюдента и Фишера и т.д. Кое-что из вышеперечисленного численные методы позволяют проделать, однако полный статистический анализ модели, подобный анализу линейной модели, провести не удается.

245

В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным переменным. Преобразования переменных также требуют более осторожного их использования по следующим причинам [1]:

1)Следует с осторожностью применять логарифмические преобразования, они могут использоваться только в случае, если переменные исходной нелинейной модели принимают положительные значения. В противном случае (при отрицательных значениях переменных) логарифмическая функция не определена.

2)Если в исходной модели остатки нормально распределены, возможно, преобразованные остатки этим свойством обладать не будут, что приводит к проблемам с предположением

онормальном распределении остатков, а в некоторых случаях в остатках появится гетероскедастичность [1].

3)При нелинейных преобразованиях, подобных логарифмическому, нельзя утверждать, что свойства оценок преобразованной модели после обратного преобразования сохранятся (бу-

дут иметь место) и для исходной модели. При линеаризации функции12 возникают и другие проблемы: искажение остатков e и нарушение их первоначальных свойств.

4)Если случайный член в уравнение смешанного типа входит аддитивно, то в этом случае модель невозможно преобразовать так, чтобы свести ее к линейной.

5)Использование в уравнениях регрессии высоких степеней может привести к потере точности. В полиномиальной рег-

12 Линеаризация (от лат. linearis – «линейный») – один из методов приближённого представления замкнутых нелинейных систем, при котором исследование нелинейной системы заменяется анализом линейной системы, в некотором смысле эквивалентной исходной. После линеаризации функций система переходит в систему линейных дифференциальных уравнений n- порядка. Методы линеаризации: логарифмирование – применяется к степенным функциям; метод обратного преобразования – для дробных функций; комплексный метод – для дробных и степенных функций.

246

рессии явление мультиколлинеарности приводит к погрешностям оценок.

Некоторые новые методы, в том числе методы нейронных сетей, группового учёта аргументов и другие, дают возможность исследовать нелинейные модели, ранее не подвергавшиеся тестированию.

В главе 5 показано, что степень тесноты линейной связи показывают парные и множественный коэффициенты корреляции. Они отличаются друг от друга методами вычислений.

Исходя из тождеств

SS

 

SS

 

SS

Относительно

=

Обусловленная

+

Относительно ;

среднего

регрессией

регрессии

 

 

SS

 

SS

 

SS

Общая

= От регрессии

+

Остатков .

можно записать:

(SSрегр + SSост) / (SSобщ) ≤ 1.

Если в выражении (5.15) и приведенном тождестве сумма квадратов относительно регрессии (или сумма квадратов остатков) была бы равна нулю, то уравнение регрессии объясняло бы и описывало 100 % разброса функции. Иными словами, уравнение бы описывало функциональную зависимость без остатков.

Из этого неравенства очевидно, чем меньше SSост тем больше будет SSрегр. Если из правой части убрать сумму квадратов остатков, то получим выражение, которое в линейной регрессии называется коэффициентом детерминации (или квадрат ко-

эффициента множественной корреляции): R2 = (SSрегр) / (SSобщ). Перепишем это уравнение в другом виде:

 

 

SS2

 

R2 1

 

ост

.

(7.5)

2

 

 

SSобщ

 

247

Коэффициент множественной корреляции определяется как корень квадратный из коэффициента детерминации и поэтому не может быть отрицательным.

В уравнении нелинейной регрессии, так же как и в линейной зависимости, рассчитываются показатели корреляции. Но величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации, а корень из данной величины R называют индексом корреляции. Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

Если после преобразования уравнение регрессии (нелинейное по объясняющим переменным) принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи в парной регрессии может быть использован парный коэффициент корреляции Ryx = ryz, где z – преобразованная величина аргумента, например z = 1 / x или z = ln x.

Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком (нелинейность по параметрам). В этом случае парный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку тесноты связи и численно не совпадает с индексом корреляции.

Это можно увидеть из следующих формул:

 

 

 

 

 

 

 

 

 

 

 

2

 

 

SSост2

 

1n (yi Y i )2

R

 

(1

 

 

) 1

1n (yi

 

.

 

SSобщ2

 

 

 

 

 

y

)2

Следует обратить внимание на то, что разности в соответ-

 

 

n

 

^

n

 

 

 

 

 

 

ствующих суммах (yi Y i )

и (yi

y

)2

 

берутся не в преоб-

11

разованных, а в исходных значениях результативного признака.

248

Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. После вывода уравнения оценку детерминации можно вычислить самостоятельно.

Индекс детерминации R2 можно сравнивать с коэффициентом парной детерминации r2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина коэффициента парной детерминации r2 меньше индекса детерминации R2. Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически если величина (R2 – r2) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различий R2, вычисленных по одним и тем же исходным данным, через t-критерий Стьюдента:

t(R r ) R2 r2 , m(R r )

где m(R r ) – ошибка разности (R2 r2). Её можно вычислить из выражения

m(R r) (R2 r2) (R2 r2)2 (2 (R2 r2))/n.

Если tнабл> tкрит (α; n – m – 1), различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии уравнением линейной функции невозможна. Практически если величина t < 2, то различия между R и r несущественны и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

О качестве нелинейного уравнения регрессии можно также судить и по средней ошибке аппроксимации. Эту величину

249

дают нам остатки по каждому наблюдению. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации по выражению (5.21). Существует и другое выражение:

A

1

 

(y

 

)2 /n 100.

y

y

 

 

 

 

 

Как правило, таблицу остатков можно вывести в статистических программах. Величина А = 5–7 % считается незначительной ошибкой, она свидетельствует о хорошем подборе модели к исходным данным.

7.6. Фиксированная нелинейная регрессия

При обработке наблюдений пользователь может воспользоваться преобразованиями, изложенными ранее в разделе 7.5. Подобрав требуемое, по мнению исследователя, преобразование в программе Statistica, можно создать новые поля и ввести подобранные аргументы (и, возможно, функцию), к примеру x2 или несколько преобразованных аргументов в соответствующие столбцы. В дальнейшем можно будет подбирать и анализировать зависимости функции от выбранного аргумента (или нескольких аргументов).

В программе Statistica имеются механизмы формирования некоторых дополнительных переменных программно, не создавая дополнительные поля в исходной таблице. Для этого имеется окно, в котором пользователю необходимо отметить требуемые для анализа преобразования (рис. 7.19). Выбранные преобразования применяются как для функции (переменная V11), так и для аргументов. В дальнейшем при выборе одной зависимой и нескольких (или одной) независимых переменных потребуется указать необходимые варианты.

250

Соседние файлы в папке книги