Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги / Человек и его работа в СССР и после..pdf
Скачиваний:
5
Добавлен:
20.11.2023
Размер:
21.25 Mб
Скачать

Возьмем уровень значимости q = 0,05 и для / = 46 + 52 — 2 = 96,

'„=1-98.

Поскольку / = 1,62 < 1,98, то следует вывод, что разница в средних несущественна, данные групп не различаются по уровню образования настолько, чтобы можно было считать разницу значимой.

Существует целый ряд других критериев, позволяющих проверять раз­ личного рода предположения, несущие в себе важный для социолога со­ держательный смысл. Мы остановились лишь на критериях, широко при­ менявшихся в нашей работе.

3. Анализ взаимосвязей между признаками

Особый интерес представляют задачи, связанные с установлением тесноты и формы зависимости двух и более признаков. На различном уровне точности и легкости применения существуют разные способы для выяв­ ления связей.

а. Пусть данные сведены в таблицу 2x2, т. е. таблицу следующего вида.

 

 

 

Таблица 8

В

А

не

 

а

ь

а + b

не-В

с

d

с + d

 

а + с

b + d

N

Все приводимые ниже коэффициенты тесноты связи между призна­ ками обладают двумя общими свойствами. Во-первых, их абсолютные значения имеют различные пределы колебании. Поэтому можно сопос­ тавлять данные по одному и тому же коэффициенту. Кроме того, в прак­ тике конкретно-социологических исследований наличие полных связей, которые бы выразились коэффициентами, равными предельному (напри­ мер, 1), чрезвычайно редки. Поэтому каждый раз приходится проверять значимость отклонений полученных коэффициентов от продельных.

Во-вторых, статистические коэффициенты тесноты связи признаков указывают лишь на наличие самой связи (если она есть), но не указывают на детерминацию этой связи, ее направление. Что касается детерминиро­ ванности изменения одного признака в зависимости от другого или их взаимодействия, эта задача решается в содержательном социологическом анализе проблемы. В нашем исследовании эту цель преследуют схемы содержательных связей между факторами, включенными в анализ, кото­ рые мы предпосылаем статистическому анализу тесноты связей, апример, в схеме (глава вторая, с. 143) мы показываем взаимодействие факторов, определяющих степень удовлетворенности работой, а затем анализируем

тесноту (степень) связи этих факторов.

 

 

/л . Плгл

В табл. 8 фиксируется только наличие

отс> т .^ „ „ “ младше 25 лет,

ства по двум признакам. Например, А—возрастна

РУ

пассмотое-

не-Л - группа старте 25 лет. Кроме тото. ка*Д*»“

%7о-

на в отношении признака В. Например, В обоз

тельно высокие производственные показатели, не-В — относительно низ­ кие производственные показатели РИ < 0. Допустим далее, что у нас в выборке N рабочих, из них:

а — рабочие младше 25 лет и у которых РИ > 0, b — рабочие с та рш е 25 лет и у которых РИ > 0, с — рабочие младще 25 лет и у которых РИ < 0, d — рабочие старше 25 лет и у которых РИ < 0.

Можно ли считать, что в наших данных есть связь между этими при­ знаками (возрастом и производственными показателями)? Для таких таб­ лиц есть несколько коэффициентов связи, в частности:

 

Q = a d -b c

 

ad+ bc

j___

a d -b c

 

yj( a+b X a+c X b+ d X d + c )

(15)

^

Каким из этих двух показателей более целесообразно пользоваться? Q — легче, быстрее подсчитать, г — критерий, теоретически более пред­ почтительный. Свойства их таковы:

И* 1,

И= 1, когда либо а и d, либо b и с равны 0 одновременно.

101*1.

|0| = 1, когда какая-либо из частот а, Ь, с или Нравна 0. При значени­ ях этих коэффициентов, близких или больших 0,5, мы можем им дове­ рять, т.е. считать, что коэффициенты свидетельствуют о связи Aw В.

Таблица 9

РИ

Возраст

^

> 0

< 0

 

 

 

 

< 25 лет

 

843

771

1614

> 25 лет

 

698

290

988

 

 

1541

1061

2602

Q = -0,375 г = -0,183.

Взятые нами слишком общие данные имеют тенденцию к отрица­ тельной связи. Но по этим коэффициентам мы не можем судить о тесноте связи между характеристиками.

б. Если же о характеристиках А и В мы имеем более полную информа­ цию, нежели просто регистрацию наличия или отсутствия этих призна­ ков (например, хотя бы на уровне «больше», «меньше», «мало»), или знаем некоторые или все значения признака, то для установления связи между признаками применяются более мощные критерии, к частности критерий х2(довольно часто употребляемый в данной работе). В общем виде признак А имеет значения А}, А2,..., А.,..., Ак, признак В имеет значения

В„I В2,... ВI ... Вin', данные сведены в таблицу сопряженности признаков.

 

4

4

 

A J

л

п‘= i> h

 

 

 

 

 

 

м

В,

и п

пп

 

\

«I*

 

В2

П22

 

 

«2*

п

. . .

 

 

. . .

. . .

 

 

В,

"п

па

 

п»

 

п,.

Вт

пы

"ш2

 

ПЩ>

 

"п.

т

 

П2

 

 

пл

N

п г S X

«1

 

п.1

 

 

/=1 >1

У нас есть N единиц совокупности, они распадаются на группы со значением Л{— число единиц пл, со значением Л2 — число единиц п2 и т.д.

Кроме того, каждая группа со значением признака AJрассматривается

вотношении признака В. Например, в группе из пл единиц со значением Ахпи имеют признак В,, п2] имеют признак В2и т. д. Вообще « означает, что

всовокупности из N единиц пг из них обладают сочетанием признаков А.

и В.

'

 

Есть ли связь между признаками? %2устанавливает меру различий между

наблюдаемыми и ожидаемыми частотами. Ожидаемые частоты мы рас­ считываем из предложения, что связи между признаками нет (нулевая гипотеза)1. Задача записывается следующим образом:

Нужно найти разницу между n(Jи

Для каждого столбца в каждой

строке и затем подсчитать величину

 

1 Статистическую нулевую гипотезу следует отличать от содержательный ну

левых гипотез об отсутствии связей. Первая имеет целью проверить наличие или отсутствие связи при данном конкретном распределении, а вторая вытекает i отсутствия каких-либо предварительных знаний о связи между явлениями. Напри­ мер, нет смысла выдвигать содержательную (социологическую) нулевую гипотезу относительно отсутствия связи между результатами труда и размером заработка эта связь в принципе очевидна. Но есть смысл проверить в дани конкретно случае, имеется ли эта связь по результатам выборочного обследования на малой

выборке (статистическая нулевая гипотеза).

I

i

 

N

 

 

_Л _

07)

N

 

 

Эта величина имеет %2 распределение с /

= (т -\)(к -\) степенями

свободы. Пусть, например, признак А имеет 5 значений, а В -3, тогда / = (5— 1 )(3—1) = 10. Значит, если подсчитанное значение превзойдет величину x2qtp то с уровнем значимости q мы говорим, что данные проти­ воречат гипотезе о независимости признаков — нулевая гипотеза опро­ вергается. Значение х 2я/

для q = 0,05 и /=

10 равно 18,3

для q = 0,01 и / =

10 равно 23,2

X2qj можно определить по любой таблице распределения с2. Если дан­ ные сведены в таблицу 2X2, то выражение с2 получаем в виде

2_ (a + b + c + d )(a d -b c )2

(a+b)(c+d)(b+d)(a+c)

Из сравнения х 2 с приведенным выше коэффициентом г получаем

Х 2 = N г 1.

(19)

Если у нас/степеней свободы, то мы выбираем в таблице1 строку, соот­ ветствующую / Если мы задались уровнем надежности 0,05, то смотрим значение с2 в графе, соответствующей 0,05. Если нам нужна большая надежность вывода, то мы выбираем значение из графы, соответствую­ щей q = 0,01.

Пример: Допустим, нам надо проверить, предположение о наличии связи между квалификацией и заработной платой в некоторой группе ра­ бочих.

Мы имеем таблицу наблюдаемых частот (см. табл. 11, с. 352). Рассчиты­ ваем разницу между наблюдаемыми и гипотетическими (ожидаемыми)

частотами но приведенной для х2 формуле (17), получаем:

 

 

 

 

X2= 92,2,

 

 

 

 

 

х \ ,, = 23,2 при д = 0,01,/=

10.

 

 

Таблица наблюдаемых частот

 

 

 

Таблица I/

Зарплата

40-60

60-80

80-100

1 0 0 - 1 2 0

120-150

Свыше

Итого

 

К вали ф Й > -^Р > ;б >

 

 

 

 

 

150

 

кация

 

 

 

30

 

 

144

Низкая

1 2

1 2

78

1 2

0

Средняя

6

9

27

48

33

1 2

135

Высокая

0

8

36

45

60

1 2

159

Итого

18

27

141

123

105

24

438

1 Доверительные границы для х2 находятся #из таблицы «Доверительные гра­ ницы для х2 с/степенями свободы».

Зарплата

40-60

60-80

80-100

1 0 0 - 1 2 0

120-150

Свыше

Итого

Квалифи^^^!^^^

 

 

 

 

 

 

150

 

кация

 

 

 

 

 

 

 

 

Низкая

6 , 0

9,0

 

46,4

40,5

34,4

7,8

144

Средняя

5,7

6 , 2

 

43,4

37,5

32,3

7,5

135

Высокая

6,3

9,9

 

51,3

45,0

38,4

8,7

159

Итого

18,0

2 1

'

141

123

105

24

438

Сравнивая величины 92,2 и 23,2, делаем вывод: гипотеза о независимос­ ти признаков должна быть отброшена с большим уровнем надежности.

Однако, как отмечалось, критерий у} обладает многими недостатками. Даже при одной и той же степени связи между признаками, но при раз­ личных значениях N значения у} получаются разными. Поэтому, чтобы уравнять у}, в этом отношении для сравнения применяют так называе­ мую среднюю квадратическую сопряженность

ф12= ^ -

(20)

или коэффициент средней квадратической сопряженности

Эти величины также не очень хороши в качестве коэффициентов, так как границы их, вычисленные при различном числе групп и подгрупп, строго говоря, несравнимы. Коэффициенты будут иметь разные значения даже для одного и того же материала, но с разным числом взятых подгрупп. Этот недостаток устраняется в коэффициенте взаимной сопряженности

(22)

Указанные коэффициенты скорее просто помогают уста пить связь, чем показывают меру этой связи, ее тесноту. Таким образом, использова­ ние с2для характеристики связи признаков неизбежно ограничивает воз­ можности вывода. Кроме того, у} и связанные с ним коэффициенты име­ ют один общий недостаток: для них безразлично, предшествует ли значе­

ние признака А., значению А., или, наоборот, коэффициенты будут одинаковыми и в том и другом случае. Если же у нас значения признаков

обладают свойством ранжированного ряда At > А2 > . .. > Ат, тогда можно применять коэффициенты ранговой корреляции, которые являются бо­

лее или менее основательной мерой тесноты связи2.

1 Итоговые результаты иногда не совпадают из-за округления чисел при вы­

числении.

2 О коэффициентах ранговой корреляции см.: Н. Бэйли. Статистические мето­

ды в биологии. М., 1962. С. 101-107.

в. Пусть у нас имеется п единиц. По одному признаку расположим их в неубывающем порядке, т.е. если какая-то единица имеет порядковый но­ мер (ранг) 5, то это значит, что она обладает качеством А не в меньшей мере, чем единица с порядковым номером 4, и не в большей мере, чем единица с порядковым номером 6. Соответственно по второму признаку в зависимости от его интенсивности присвоим вторые порядковые номера нашим п единицам.

Пусть по первому признаку ряд рангов будет такой: 1, 2, 3,..., п тогда по второму признаку соответствующйе единицы имеют ранги kv k2,...,

кп. В этом случае коэффициент ранговой корреляции, предложенный Спир­ меном, рассчитывается по формуле

(23)

где df = / —к., т.е. разность между рангами первого и второго признаков для каждого элемента.

Свойства этого коэффициента таковы:

I р I = 1.

|р | = 1, когда связь прямая, полная, т.е. ранги по второму признаку такие же, как и ранги но первому признаку, или два ряда рангов совпада­ ют: 1, 2, 3, ..., п — ранги по признаку А, им соответствуют 1, 2, 3, ..., п — ранги по признаку В. р = —1, когда связь полная обратная, т. е". когда по признакам ранги противоположны: если ранг по признаку А равен 1, то по признаку В ранг этого же элемента будет п При прочих промежуточ­ ных комбинациях | р | < 1, при этом р > 0 — связь прямая,

р < 0 — связь обратная, т. е. увеличение (уменьшение) степени одно­ го признака связано с увеличением (уменьшением) степени другого при­ знака, а для р < 0 — наоборот.

Другим коэффициентом ранговой корреляции является коэффици­ ент Кэнделла; он обладает теми же общими свойствами, но теоретически

предпочтительнее

 

т=

(24)

где в = 1, если / > у, и я..= -1 , если / <у; я., рассматривается для первой парь/рангов; & — соответствующие значения по распределению рангов по втором ряду.

Объединенные ранги

Допустим, что мы не можем отдать предпочтение ни одному из / эле­ ментов по признаку А, а на них должны приходиться номера а, я+1,

1, тогда всем этим t элементам приписываются одинаковые ранги

g + ( f l + l ) + . . . + ( f l + f - l )

t

а + ^ — ранги приписаны подряд I элементам. Это приводит к ис­

правлению коэффициентов ранговой корреляции по Спирману к виду

О

Р=

 

l l ' — П

о т -

| Я 3—Я . .'у т

(25)

 

6

М

6

 

где

Л3-Л

 

 

 

т.е. первый раз мы объединили /, элементов, во второй

 

12

 

 

 

раз /2 элементов и т.д., итого было / таких объединений. Г для признака В рассчитывается аналогично.

Коэффициент Кэнделла приводит к виду

т=

(26)

где U

Представляет интерес рассмотреть тот случай, когда п достаточно ве­ лико, и потому слишком трудоемко строить два ряда из 100, 200, а тем более 2000 наблюдений. В этом случае данные желательно свести в табли­ цу, аналогичную таблице сопряженности признаков, а которой А, > Лг . и В ,> В2 > ..., но группа элементов А, внутри себя уже не имеет ранжирова­ ния, т. е. все п, элементов имеют одинаковые ранги.

У нас каждые пи элементов имеют ранги по признаку А

п( +1

~ 2 ~

и ранги по признаку В

n j+ l

п+

и2~'

Отсюда можно вывести р и т через ранги 1 и ранги 2. Формула слиш­ ком громоздка и здесь не приводится.

Наиболее мощный аппарат для анализа связей Представляет теория корреляции. Эта теория достаточно хорошо разработана для специального вида распределения величин — нормального. Но после того как выясни­ лось, что свойства коэффициента корреляции могут быть выведены бе­ зотносительно к форме распределения численностей, значение свойств нормального распределения перестало быть существенным.

г. Для каждой корреляционной таблицы может быть рассчитан коэф­ фициент корреляции, или, как его еще называют, парный коэффициент корреляции.

Предположим, данные сведены в таблицу следующего вида.

В этом случае парный коэффициент корреляции можно рассчитывать но формуле

 

N Y ; n » X y~ T ; n ’X' ' £ n <y

 

—____________ L1_______ i--------1

'

<27)

пху = n.. для x = Xj, у = у. и так для всевозможных пар значений / и/ Возникает вопрос, насколько показателен полученный коэффициент

корреляции. Известно, что если р = 1, то связь между признаками прямая полная; р = —1 означает, что связь обратная полная; р = 0 — отсутствие корреляционной связи. О чем же говорят все значения в интервале 0 < |р | < 1? Насколько сильно значение | р | должно отличаться от нуля, чтобы его можно было считать существенным, показывающим наличие связи? Ведь коэффициент корреляции может быть рассчитан для любых х и у, между которыми нет связи, и тем не менее вероятность того, что получится р = О, очень мала. Для наглядности рассмотрим пример.

Возьмем таблицу для признаков: (см. табл. 15)

у = х, — удовлетворенность

х = х2 содержание труда,

специальностью,

 

Получаем коэффициент корреляции

р = 0,275.

Значим ли он?

 

Строим критическую область

 

I г I > tsr,

(28)

доверительной вероятности 0,95 и 2,58 для доверительной вероятности 0,99. Если значение г попадает в эту область, то данное г указывает на наличие корреляционной связи между* и у. Вообще эта проверка годится для достаточно больших N. Если выборка достаточно большая, то даже маленькие значения оказываются значимыми. Для малых N существуют

специальные таблицы значимости г.

Внашем примере 5г = 0,026.

/5г = 1, 96 х 0,026.

Коэффициент корреляции значим, ибо 0,275 > 0,052.

Другой вопрос, требующий ответа, как интерпретировать установ­ ленную корреляционную связь? Прежде всего гху устанавливает корреля­ ционную связь между * и у, не принимая в расчет всех других признаков, которые могут влиять на * и у, как бы считая, что таких признаков не существует вообще. Далее, если г значим, мы говорим: «корреляционная связь есть», а это может означать одно из трех1: * влияет на у; у влияет на * и на * и на у действует некоторый третий фактор z.

Коэффициент г достаточно показателен, когда связь между величи­ нами линейна, общим же показателем при любой форме связи является

корреляционное отношение

(29)

Если различие между г к т] существенно, то связь между величинами значительно отличается от линейной, хотя по-прежнему г может слу­ жить оценкой тесноты связи в первом приближении. Различие между г и Л проверяем по формуле

> 3 ,

(30)

 

где ог и о соответственно оцениваем величинами

1 Корреляционный анализ не дает возможности установить сущностные на­

правления связей. Для этой цели социолог должен прибегнуть к содержательному анализу. Что касается технических средств определения и формализации причин­ но-следственных связей, то большую помощь может оказать применение аппарата теории графов (см.: К. Берж Теория графов и ее применения. М., 1962: Н. Бэйли. Статистические методы в биологии. М., 1962; О. Орр. Графы и их применение. М., 1965; см. также о коэффициентах детерминации в атом разделе).

Допустим, мы хотим сравнить тесноту связи и двух распределениях, для которых рассчитаны г, и гг Существенность разницы между г, и г2 проверяем по неравенству

->3,

(31)

4 а Ч а 2

 

Далее мы хотим углубить анализ связи между величинами JCи у, хотим прогнозировать у для данного значения х. Если есть основания для пред­ положения о наличии линейной связи, то следует найти параметры урав­ нения линейной регрессии

у = а + Ьх.

(32)

Параметры а и b находим по методу наименьших квадратов, т.е. по мето­ д у, который обеспечивает минимум выражению

Х [)\-(<*+&*)]

Для этого надо решить систему нормальных уравнений:

^ п уу = № + Ь ^ п х , ^ п „ х у = а '£ п х+Ь'£1п у-

(33)

Опять-таки прямую регрессию можно построить для любых х и у, но насколько она показательна, насколько тесно группируются значения ух около этой прямой, насколько стала меньше колеблемость у после того, как часть ее мы объяснили колеблемостью х. Ответом на этот вопрос служит ошибка линии регрессии, которая рассчитывается по формуле

,

У п у 2- а У п у - b ? \ппху

(34)

S =

— .

 

N

 

В нашем примере

у = - 0,085 + 0,098*.

Syx= °>480-

Еслп * значительно коррелирует с у, то ошибка линии регрессии Syx будет значительно меньше S .. Из полной колеблемости у можно прибли­ зительно объяснить долю колеблемости у за счет колеблемости * величи­ ной г 2ху Остальная часть 1 - г*ху приходится на другие признаки.

В нашем примере

д.

1 - г 2ху = 1-0,076 = 0,924.

Итак, мы рассмотрели связь между двумя величинами в предполо­

жении, что это связь линейная. Но очень часто связь носит более сложный характер, кроме того, мы хотим изучить влияние на у не одного фактора

Найдем линейное выражение х, через хг. Уравнение линейной регрессии будет х, = -0,085 + 0,098х2.

Насколько улучшилась наша оценка, мы можем судить по ошибке линии регрессии S12= 0,480. Соответственно для х?получаем уравнение линейной регрессии хх= 0,869+0,0014лг3.

Ошибка этой линии регрессии S13 = 0,498.

Если сравнить S12 и S|3 с S, то увидим, что колеблемость признака уменьшается, т.е. признаки х2и дг3 вносят какой-то вклад в объяснение хр хотя в общем-то линейная связь между ними слабая. Далее пытаемся объяс­ нить вариацию х, совокупным влиянием факторов х2 и х3, опять же и предположении линейной связи, т.е. найдем параметры уравнения

х, =я+6|23х2 +&132х

(35)

Определим их, решая систему нормальных уравнений:

^ x = a N + b m ^ x 7+bm ^ x }

Е * Л =аЕ * г+Ьш Х^2+/?.з: Е *Л ’

Е *'*з = а ^ х ,+ Ь пз ^ хл + ь ш

Получаем:

х, = - 0,270 + 0,096х2 + 0,002х3.

О том, насколько удачно выражение х, через х2 и х3 говорит средняя квадратическая ошибка этого уравнения регрессии,вычисленная по фор­ муле

s;„ = s;-b IM

ъ ^ Е * л ~ Е * .Е - * з

(37)

N 2

N 2

 

В нашем примере 5,.23 = 0,477.

Показателем степени связи между этими факторами является коэф­ фициент корреляции г|2= 0,275, г|3 = 0,080. Коэффициенты корреляции

значимы.

Корреляция между удовлетворенностью специальностью и со­ держанием труда выше, чем между удовлетворенностью специальностью

и размером заработной платы.

Связь увеличивается между х7 и совокупным влиянием х2 и х3. Коэф­ фициент множественной корреляции исчисляется по формуле

(38)

В нашем случае R, 23= 0,295.

Чистые корреляции дают зависимость между двумя переменными при условии, что псе остальные учитываемые факторы остаются неизменны­ ми. Возникает такая задача: корреляция гп = 0,275, но к этой связи как-то примешана связь между JC, и х2с ху Для того чтобы эллиминировать (уст­

ранить) влияние ху подсчитываем г|2 для каждого значения х3, т.е. г12 в 1-й группе по содержанию труда, г,2 во 2-й группе по содержанию труда и т.д. Затем подсчитываем среднее значение коэффициента корреляции, и это будет искомым показателем корреляции между х и у, где влияние вариа­ ции JC3 устранено. Такое же назначение имеет коэффициент чистой корре­

ляции

с 2_ с 2

.^1-3

°123

(39)

S132

или по формуле

 

 

" V F 5 F 5 ) ’

(40)

 

т.е. корреляция между JC, и х2 без влияния JC3

хотя это по-прожнему не

будет чистой корреляцией между JC,

и х2, потому что остается множество

неучтенных факторов, влияющих на JC, и х2 на их корреляцию.

В нашем примере г|23= 0,284; г|32 = 0,100. Вариация устраняемого фак­ тора скрывала влияние первых двух.

Обычно важно устранить влияние не одного, а нескольких факторов. Дальнейший анализ можно привести в таком направлении: dx23 = г2]23 — детерминация, т.е. та часть колеблемости JC,, которая может быть объясне­ на совокупным влиянием JC2 и JC3 на JC,. Эту общую детерминацию мы рас­ членяем на частные, приписываемые каждой из переменных JC2и JC3

Частные детерминации рассчитываются по формулам

_bwi

.23 S 2 N 2

(41)

d 13/2

N 2

т.е. получаем две составляющие коэффициента общей детерминации. Каж­ дый из них рассматривается как измеритель частного вклада данной неза­ висимой переменной в «объяснение» колеблемой зависимой переменной. Коэффициенты частной детерминации могут быть использованиы в ка­ честве приближенного грубого указателя относительного значения несколь­ ких независимых переменных.

В нашем примере г2,23 = 0,087. Частные детерминации; */|23 = 0,075, </ш = 0,012.

Более удовлетворительные результаты получаются при разложении общей детерминации на так называемые коэффициенты последовательной детерминации:

4 : =

4 ,з = 4 :+ А *

(42)

Первое слагаемое измеряет сокращение колеблемости х,, «относимое за счет» влияния х2 и представленное как часть исходной вариации хг Второе слагаемое измеряет дополнительное или последовательное сокра­ щение колебляемости х, после того, как учтено влияние х2 Детермина­ ция, отвечающая первой независимой переменной, включает любре вли­ яние, проистекающее от первой переменной, плюс влияние, идущее че­ рез первую независимую переменную, поскольку она находится в зависимости с другими переменными, коррелируемыми с х,, т.е. корре­ ляция между х2 и х3 учтена в первом показателе dn

В нашем примере dx2= 0,078,2dn = 0,010, т.е. dl23= 0,078 + 0,010 = 0,087.

** *

Мы рассмотрели технику применения аппарата корреляции для ана­ лиза связей между характеристиками. Специально не увлекаясь достиже­ нием большой точности, а стремясь к наибольшей простоте, мы рассмат­ ривали влияния лишь двух факторов на третий и к тому же исходили из предположения о наличии линейных связей между ними, что в данном случае является малопоказательным. Изложение методов корреляции но­ сило иллюстративный характер.

Однако задача исследователя подобными шагами не ограничивается, потому что остается открытым вопрос, как охватить всю систему призна­ ков в целом. Базисом для дальнейшего анализа служит корреляционная матрица, каждый элемент которой равен коэффициенту корреляции не­ которых двух признаков из имеющихся во всей системе (см. Приложение, табл. В-8).

В психологии для многопризнаковых систем разработана теория фак­ торного анализа, биологи пытаются разрешить подобные задачи с помо­ щью корреляционных плеяд. Мы же пытались наложить на нашу систему граф связей; вершинами его являются некоторые признаки, и два при­ знака будут связаны дугой (они окажутся смежными вершинами), если коэффициент корреляции между этими признаками значим и длина дуги равна по величине коэффициенту корреляции | г |.

В этом случае получается почти что полный граф с замкнутыми цепя­ ми, и разобраться во всем этом множестве связей довольно трудно. Воз-

Частичный граф связей, включенных в матрицу (Приложение, табл. В-8)

Общий

рабочий

стаж

Возраст

0,380

никает вопрос: с каким критерием подойти к этому графу так, чтобы оборвать некоторые связи, чтобы система связей стала более простой, более компактной? Можно было бы поставить на этом графе некоторые задачи, рассматриваемые в общей теории графов, в частности найти так называемое дерево с максимальной длиной пути.

Возьмем 10 признаков, включенных в корреляционную матрицу. Как видно по табл. В-8 Приложений, матрица симметрична относительно глав­ ной диагонали г.. — коэффициент между признаком, стоящим в /-стро­ ке, и признаком, стоящим ву-м столбце. В частности, г|2 — это коэффи­ циент корреляции между РИ и удовлетворенностью работой.

Матрице однозначно соответствует полный граф парных корреляци­ онных связей. Из этого графа выделяем частичный граф, имеющий п =10 вершин и т = 9 ребер, так называемое дерево, и такое, чтобы длина его ветвей была наибольшей. Получаем частичный граф связей, включенных в корреляционную матрицу (см. граф на с. 364).

Длина ребер графа, соединяющих две смежные вершины («ветви» на­ шего «дерева» как бы составлены из таких ребер), соответствует величи­ нам коэффициентов корреляции между этими вершинами-признаками. Из полного графа мы выделили лишь то связи, которые дают наиболь­ шую тесноту, которую мы определили как наибольший коэффициент корреляции из всех коэффициентов, показывающих тесноту связи этой вершины с остальными девятью признаками. Все другие пути из этой вершины в каждую оставшуюся, кроме одной, будут давать меньшую связь. Для наглядности дуги вычерчены в масштабе так что за единицу принята дуга между вершинами «возраст» и «образование» как самое короткое рас­ стояние (наибольшая теснота), соответствующее наибольшему из всех коэффициентов, имеющихся в матрице (г = 0,945).

Подобная операция представляется нам весьма плодотворной для ре­ шения многих задач социального исследования. Например, обычно воз­ никает проблема определить зависимость некоторых характеристик пове­ дения людей от их демографических данных (возраст, пол. образование и т.д.). Между тем сами демографические данные (или — более широко — объективные и субъективные характеристики личности) также взаимо­ связаны и могут составлять синдром характеристик — группу тесно связан­ ныхфакторов (например, образование может очень высоко коррелировать с возрастом, стаж работы с возрастом и стажем по специальности и т.д.). Выделение синдромов позволит в дальнейшем упростить анализ связей между этим классом характеристик с характеристиками поведения. И на­ оборот, возможны синдромы в характеристиках поведения, что также упрощает задачи дальнейшего анализа. Так, в нашем случае был обнару­ жен синдром между степенью удовлетворенности работой и специаль­ ностью, что позволило далее ограничиваться анализом факторов, влияю­ щих только на удовлетворенность работой (и переносить вывод на интер­ претацию факторов, связанных с удовлетворенностью специальностью).

О чем говорит граф?

Наиболее значимой характеристикой (вершина графа) является об­ щий рабочий стаж, который содержит целую гамму связанной информа­ ции (от пего идут основные ветви графа). Мы видим, что при учете ука­

занных в корреляционной матрице факторов (на самом деле их несрав­ ненно больше) РИ (объективные показатели работы и инициативности) наиболее тесно связаны со стажем работы по специальности, а затем с рабочим стажем, что свидетельствует о преимущественно мануфактур­ ном типе труда в нашей выборке, где опыт и навык играют более значи­ мую роль, чем общеобразовательная подготовка, которая имеет отрицатель­ ную корреляцию с возрастом (чем старше рабочий, тем меньше уровень образования), но, несмотря на это, более зрелый жизненный и произ­ водственный опыт при менее высоком уровне образования дает лучшие результаты работы (это обстоятельство подробно анализировалось в гла­ вах второй и четвертой).

Далее видно, что содержание труда ближайшим образом влияет на сте­ пень удовлетворенности работой и специальностью (синдром) и высоко коррелирует с возрастом и общеобразовательной подготовкой рабочего, тогда как возраст и стаж тоже синдром. Рабочий стаж довольно высоко коррели­ рует и с размером заработной платы (что вполне понятно).

Простой вывод из анализа этого графа таков: при дальнейших иссле­ дованиях отношения к труду разумно производить районированную вы­ борку единиц наблюдения но группировкам общего рабочего стажа; тогда мы получим гарантию достаточного объема информации по существен­ ным факторам, включенным в систему взаимосвязей «отношение рабо­ чего к труду».

Этот вывод важен для определения выборок при последующих рабо­ тах, но не столь содержателен для изучения взаимодействия рассмотрен­ ных признаков. Поэтому более целесообразно не ограничиваться общим графом, но выделить для детального анализа интересующие нас подгра­ фы. Пример такого анализа содержится в главе второй (см. граф. стр. 143), где мы рассматриваем взаимодействие факторов, обусловливающих сте­ пень удовлетворенности работой (и специальностью). Там же дана более развернутая содержательная интерпретация графа.

* * *

Таковы некоторые общие сведения о статистическом аппарате анали­ за данных, применявшихся в работе. Нам представляется важным сосре­ доточить внимание исследователя прежде всего на группе задач о статис­ тике вывода (проблема репрезентативности), затем на приемах определе­ ния тесноты связей между характеристиками. Что касается оценки параметров распределения, то эта задача обычно не встречает никаких трудностей, но, к сожалению, часто не увязывается с первой задачей.

Между тем без оценки качества выборки характеристика параметров рас­ пределений теряет значительную долю информации.

Соседние файлы в папке книги