Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский национальный исследовательский политехнический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги / Человек и его работа в СССР и после..pdf

Скачиваний:

Добавлен:

20.11.2023

Размер:

21.25 Mб

Скачать

☆

<<< < Предыдущая 15 16 17 18 19 20 21 22 23 24 25 2627 / 4727 28 29 30 31 32 33 34 35 36 37 38 39 > Следующая >>>

Возьмем уровень значимости q = 0,05 и для / = 46 + 52 — 2 = 96,

'„=1-98.

Поскольку / = 1,62 < 1,98, то следует вывод, что разница в средних несущественна, данные групп не различаются по уровню образования настолько, чтобы можно было считать разницу значимой.

Существует целый ряд других критериев, позволяющих проверять раз личного рода предположения, несущие в себе важный для социолога со держательный смысл. Мы остановились лишь на критериях, широко при менявшихся в нашей работе.

3. Анализ взаимосвязей между признаками

Особый интерес представляют задачи, связанные с установлением тесноты и формы зависимости двух и более признаков. На различном уровне точности и легкости применения существуют разные способы для выяв ления связей.

а. Пусть данные сведены в таблицу 2x2, т. е. таблицу следующего вида.

			Таблица 8
В	А	не -Л
В	а	ь	а + b
не-В	с	d	с + d
	а + с	b + d	N

Все приводимые ниже коэффициенты тесноты связи между призна ками обладают двумя общими свойствами. Во-первых, их абсолютные значения имеют различные пределы колебании. Поэтому можно сопос тавлять данные по одному и тому же коэффициенту. Кроме того, в прак тике конкретно-социологических исследований наличие полных связей, которые бы выразились коэффициентами, равными предельному (напри мер, 1), чрезвычайно редки. Поэтому каждый раз приходится проверять значимость отклонений полученных коэффициентов от продельных.

Во-вторых, статистические коэффициенты тесноты связи признаков указывают лишь на наличие самой связи (если она есть), но не указывают на детерминацию этой связи, ее направление. Что касается детерминиро ванности изменения одного признака в зависимости от другого или их взаимодействия, эта задача решается в содержательном социологическом анализе проблемы. В нашем исследовании эту цель преследуют схемы содержательных связей между факторами, включенными в анализ, кото рые мы предпосылаем статистическому анализу тесноты связей, апример, в схеме (глава вторая, с. 143) мы показываем взаимодействие факторов, определяющих степень удовлетворенности работой, а затем анализируем

тесноту (степень) связи этих факторов.			/л . Плгл
В табл. 8 фиксируется только наличие	отс> т .^ „ „ “ младше 25 лет,
ства по двум признакам. Например, А—возрастна		РУ	пассмотое-
не-Л - группа старте 25 лет. Кроме тото. каД»“		™	%7о-

на в отношении признака В. Например, В обоз

тельно высокие производственные показатели, не-В — относительно низ кие производственные показатели РИ < 0. Допустим далее, что у нас в выборке N рабочих, из них:

а — рабочие младше 25 лет и у которых РИ > 0, b — рабочие с та рш е 25 лет и у которых РИ > 0, с — рабочие младще 25 лет и у которых РИ < 0, d — рабочие старше 25 лет и у которых РИ < 0.

Можно ли считать, что в наших данных есть связь между этими при знаками (возрастом и производственными показателями)? Для таких таб лиц есть несколько коэффициентов связи, в частности:

	Q = a d -b c
	ad+ bc
j___	a d -b c
	yj( a+b X a+c X b+ d X d + c )

(15)

Каким из этих двух показателей более целесообразно пользоваться? Q — легче, быстрее подсчитать, г — критерий, теоретически более пред почтительный. Свойства их таковы:

И* 1,

И= 1, когда либо а и d, либо b и с равны 0 одновременно.

101*1.

|0| = 1, когда какая-либо из частот а, Ь, с или Нравна 0. При значени ях этих коэффициентов, близких или больших 0,5, мы можем им дове рять, т.е. считать, что коэффициенты свидетельствуют о связи Aw В.

Таблица 9

РИ

Возраст	^	> 0	< 0
Возраст	^
< 25 лет		843	771	1614
> 25 лет		698	290	988
		1541	1061	2602

Q = -0,375 г = -0,183.

Взятые нами слишком общие данные имеют тенденцию к отрица тельной связи. Но по этим коэффициентам мы не можем судить о тесноте связи между характеристиками.

б. Если же о характеристиках А и В мы имеем более полную информа цию, нежели просто регистрацию наличия или отсутствия этих призна ков (например, хотя бы на уровне «больше», «меньше», «мало»), или знаем некоторые или все значения признака, то для установления связи между признаками применяются более мощные критерии, к частности критерий х2(довольно часто употребляемый в данной работе). В общем виде признак А имеет значения А}, А2,..., А.,..., Ак, признак В имеет значения

В„I В2,... ВI ... Вin', данные сведены в таблицу сопряженности признаков.

	4	4		A J	л	п‘= i> h
						м
В,	и п	пп		\	«I*
В2	"и	П22			«2*	п
. . .			. . .	. . .
В,	"п	па		п»		п,.
Вт	пы	"ш2		ПЩ>		"п.
т		П2			пл	N
п г S X	«1			п.1		N
п г S X	«1			п.1

/=1 >1

У нас есть N единиц совокупности, они распадаются на группы со значением Л{— число единиц пл, со значением Л2 — число единиц п2 и т.д.

Кроме того, каждая группа со значением признака AJрассматривается

вотношении признака В. Например, в группе из пл единиц со значением Ахпи имеют признак В,, п2] имеют признак В2и т. д. Вообще « означает, что

всовокупности из N единиц пг из них обладают сочетанием признаков А.

и В.	'
	Есть ли связь между признаками? %2устанавливает меру различий между

наблюдаемыми и ожидаемыми частотами. Ожидаемые частоты мы рас считываем из предложения, что связи между признаками нет (нулевая гипотеза)1. Задача записывается следующим образом:

Нужно найти разницу между n(Jи	Для каждого столбца в каждой
строке и затем подсчитать величину

1 Статистическую нулевую гипотезу следует отличать от содержательный ну

левых гипотез об отсутствии связей. Первая имеет целью проверить наличие или отсутствие связи при данном конкретном распределении, а вторая вытекает i отсутствия каких-либо предварительных знаний о связи между явлениями. Напри мер, нет смысла выдвигать содержательную (социологическую) нулевую гипотезу относительно отсутствия связи между результатами труда и размером заработка эта связь в принципе очевидна. Но есть смысл проверить в дани конкретно случае, имеется ли эта связь по результатам выборочного обследования на малой

выборке (статистическая нулевая гипотеза).

I	i
N
_Л _	‘	07)
N
Эта величина имеет %2 распределение с /		= (т -\)(к -\) степенями

свободы. Пусть, например, признак А имеет 5 значений, а В -3, тогда / = (5— 1 )(3—1) = 10. Значит, если подсчитанное значение превзойдет величину x2qtp то с уровнем значимости q мы говорим, что данные проти воречат гипотезе о независимости признаков — нулевая гипотеза опро вергается. Значение х 2я/

для q = 0,05 и /=	10 равно 18,3
для q = 0,01 и / =	10 равно 23,2

X2qj можно определить по любой таблице распределения с2. Если дан ные сведены в таблицу 2X2, то выражение с2 получаем в виде

2_ (a + b + c + d )(a d -b c )2

(a+b)(c+d)(b+d)(a+c)

Из сравнения х 2 с приведенным выше коэффициентом г получаем

Х 2 = N г 1.

(19)

Если у нас/степеней свободы, то мы выбираем в таблице1 строку, соот ветствующую / Если мы задались уровнем надежности 0,05, то смотрим значение с2 в графе, соответствующей 0,05. Если нам нужна большая надежность вывода, то мы выбираем значение из графы, соответствую щей q = 0,01.

Пример: Допустим, нам надо проверить, предположение о наличии связи между квалификацией и заработной платой в некоторой группе ра бочих.

Мы имеем таблицу наблюдаемых частот (см. табл. 11, с. 352). Рассчиты ваем разницу между наблюдаемыми и гипотетическими (ожидаемыми)

частотами но приведенной для х2 формуле (17), получаем:
			X2= 92,2,
	х \ ,, = 23,2 при д = 0,01,/=				10.
Таблица наблюдаемых частот						Таблица I/
Зарплата	40-60	60-80	80-100	1 0 0 - 1 2 0	120-150	Свыше	Итого
	40-60	60-80	80-100	1 0 0 - 1 2 0	120-150	Свыше	Итого
К вали ф Й > -^Р > ;б >						150
кация				30			144
Низкая	1 2	1 2	78	30	1 2	0	144
Средняя	6	9	27	48	33	1 2	135
Высокая	0	8	36	45	60	1 2	159
Итого	18	27	141	123	105	24	438

1 Доверительные границы для х2 находятся #из таблицы «Доверительные гра ницы для х2 с/степенями свободы».

Зарплата	40-60	60-80		80-100	1 0 0 - 1 2 0	120-150	Свыше	Итого
Квалифи^^^!^^^							150
кация
Низкая	6 , 0	9,0		46,4	40,5	34,4	7,8	144
Средняя	5,7	6 , 2		43,4	37,5	32,3	7,5	135
Высокая	6,3	9,9		51,3	45,0	38,4	8,7	159
Итого	18,0	2 1	'	141	123	105	24	438

Сравнивая величины 92,2 и 23,2, делаем вывод: гипотеза о независимос ти признаков должна быть отброшена с большим уровнем надежности.

Однако, как отмечалось, критерий у} обладает многими недостатками. Даже при одной и той же степени связи между признаками, но при раз личных значениях N значения у} получаются разными. Поэтому, чтобы уравнять у}, в этом отношении для сравнения применяют так называе мую среднюю квадратическую сопряженность

ф12= ^ -

(20)

или коэффициент средней квадратической сопряженности

Эти величины также не очень хороши в качестве коэффициентов, так как границы их, вычисленные при различном числе групп и подгрупп, строго говоря, несравнимы. Коэффициенты будут иметь разные значения даже для одного и того же материала, но с разным числом взятых подгрупп. Этот недостаток устраняется в коэффициенте взаимной сопряженности

(22)

Указанные коэффициенты скорее просто помогают уста пить связь, чем показывают меру этой связи, ее тесноту. Таким образом, использова ние с2для характеристики связи признаков неизбежно ограничивает воз можности вывода. Кроме того, у} и связанные с ним коэффициенты име ют один общий недостаток: для них безразлично, предшествует ли значе

ние признака А., значению А., или, наоборот, коэффициенты будут одинаковыми и в том и другом случае. Если же у нас значения признаков

обладают свойством ранжированного ряда At > А2 > . .. > Ат, тогда можно применять коэффициенты ранговой корреляции, которые являются бо

лее или менее основательной мерой тесноты связи2.

1 Итоговые результаты иногда не совпадают из-за округления чисел при вы

числении.

2 О коэффициентах ранговой корреляции см.: Н. Бэйли. Статистические мето

ды в биологии. М., 1962. С. 101-107.

в. Пусть у нас имеется п единиц. По одному признаку расположим их в неубывающем порядке, т.е. если какая-то единица имеет порядковый но мер (ранг) 5, то это значит, что она обладает качеством А не в меньшей мере, чем единица с порядковым номером 4, и не в большей мере, чем единица с порядковым номером 6. Соответственно по второму признаку в зависимости от его интенсивности присвоим вторые порядковые номера нашим п единицам.

Пусть по первому признаку ряд рангов будет такой: 1, 2, 3,..., п тогда по второму признаку соответствующйе единицы имеют ранги kv k2,...,

кп. В этом случае коэффициент ранговой корреляции, предложенный Спир меном, рассчитывается по формуле

(23)

где df = / —к., т.е. разность между рангами первого и второго признаков для каждого элемента.

Свойства этого коэффициента таковы:

I р I = 1.

|р | = 1, когда связь прямая, полная, т.е. ранги по второму признаку такие же, как и ранги но первому признаку, или два ряда рангов совпада ют: 1, 2, 3, ..., п — ранги по признаку А, им соответствуют 1, 2, 3, ..., п — ранги по признаку В. р = —1, когда связь полная обратная, т. е". когда по признакам ранги противоположны: если ранг по признаку А равен 1, то по признаку В ранг этого же элемента будет п При прочих промежуточ ных комбинациях | р | < 1, при этом р > 0 — связь прямая,

р < 0 — связь обратная, т. е. увеличение (уменьшение) степени одно го признака связано с увеличением (уменьшением) степени другого при знака, а для р < 0 — наоборот.

Другим коэффициентом ранговой корреляции является коэффици ент Кэнделла; он обладает теми же общими свойствами, но теоретически

предпочтительнее
т=	(24)

где в = 1, если / > у, и я..= -1 , если / <у; я., рассматривается для первой парь/рангов; & — соответствующие значения по распределению рангов по втором ряду.

Объединенные ранги

Допустим, что мы не можем отдать предпочтение ни одному из / эле ментов по признаку А, а на них должны приходиться номера а, я+1,

1, тогда всем этим t элементам приписываются одинаковые ранги

g + ( f l + l ) + . . . + ( f l + f - l )

а + ^ — ранги приписаны подряд I элементам. Это приводит к ис

правлению коэффициентов ранговой корреляции по Спирману к виду

Р=

	l l ' — П	о т -	\| Я 3—Я . .'у т	(25)
	6	М	6
где	Л3-Л
где	т.е. первый раз мы объединили /, элементов, во второй
	12

раз /2 элементов и т.д., итого было / таких объединений. Г для признака В рассчитывается аналогично.

Коэффициент Кэнделла приводит к виду

т=

(26)

где U

Представляет интерес рассмотреть тот случай, когда п достаточно ве лико, и потому слишком трудоемко строить два ряда из 100, 200, а тем более 2000 наблюдений. В этом случае данные желательно свести в табли цу, аналогичную таблице сопряженности признаков, а которой А, > Лг . и В ,> В2 > ..., но группа элементов А, внутри себя уже не имеет ранжирова ния, т. е. все п, элементов имеют одинаковые ранги.

У нас каждые пи элементов имеют ранги по признаку А

п( +1

~ 2 ~

и ранги по признаку В

n j+ l

п+

и2~'

Отсюда можно вывести р и т через ранги 1 и ранги 2. Формула слиш ком громоздка и здесь не приводится.

Наиболее мощный аппарат для анализа связей Представляет теория корреляции. Эта теория достаточно хорошо разработана для специального вида распределения величин — нормального. Но после того как выясни лось, что свойства коэффициента корреляции могут быть выведены бе зотносительно к форме распределения численностей, значение свойств нормального распределения перестало быть существенным.

г. Для каждой корреляционной таблицы может быть рассчитан коэф фициент корреляции, или, как его еще называют, парный коэффициент корреляции.

Предположим, данные сведены в таблицу следующего вида.

В этом случае парный коэффициент корреляции можно рассчитывать но формуле

	N Y ; n » X y~ T ; n ’X' ' £ n <y
	—____________ L1_______ i--------1
'	<27)

пху = n.. для x = Xj, у = у. и так для всевозможных пар значений / и/ Возникает вопрос, насколько показателен полученный коэффициент

корреляции. Известно, что если р = 1, то связь между признаками прямая полная; р = —1 означает, что связь обратная полная; р = 0 — отсутствие корреляционной связи. О чем же говорят все значения в интервале 0 < |р | < 1? Насколько сильно значение | р | должно отличаться от нуля, чтобы его можно было считать существенным, показывающим наличие связи? Ведь коэффициент корреляции может быть рассчитан для любых х и у, между которыми нет связи, и тем не менее вероятность того, что получится р = О, очень мала. Для наглядности рассмотрим пример.

Возьмем таблицу для признаков: (см. табл. 15)

у = х, — удовлетворенность	х = х2 — содержание труда,
специальностью,
Получаем коэффициент корреляции	р = 0,275.
Значим ли он?
Строим критическую область
I г I > tsr,	(28)

доверительной вероятности 0,95 и 2,58 для доверительной вероятности 0,99. Если значение г попадает в эту область, то данное г указывает на наличие корреляционной связи между* и у. Вообще эта проверка годится для достаточно больших N. Если выборка достаточно большая, то даже маленькие значения оказываются значимыми. Для малых N существуют

специальные таблицы значимости г.

Внашем примере 5г = 0,026.

/5г = 1, 96 х 0,026.

Коэффициент корреляции значим, ибо 0,275 > 0,052.

Другой вопрос, требующий ответа, как интерпретировать установ ленную корреляционную связь? Прежде всего гху устанавливает корреля ционную связь между * и у, не принимая в расчет всех других признаков, которые могут влиять на * и у, как бы считая, что таких признаков не существует вообще. Далее, если г значим, мы говорим: «корреляционная связь есть», а это может означать одно из трех1: * влияет на у; у влияет на * и на * и на у действует некоторый третий фактор z.

Коэффициент г достаточно показателен, когда связь между величи нами линейна, общим же показателем при любой форме связи является

корреляционное отношение

(29)

Если различие между г к т] существенно, то связь между величинами значительно отличается от линейной, хотя по-прежнему г может слу жить оценкой тесноты связи в первом приближении. Различие между г и Л проверяем по формуле

> 3 ,	(30)

где ог и о соответственно оцениваем величинами

1 Корреляционный анализ не дает возможности установить сущностные на

правления связей. Для этой цели социолог должен прибегнуть к содержательному анализу. Что касается технических средств определения и формализации причин но-следственных связей, то большую помощь может оказать применение аппарата теории графов (см.: К. Берж Теория графов и ее применения. М., 1962: Н. Бэйли. Статистические методы в биологии. М., 1962; О. Орр. Графы и их применение. М., 1965; см. также о коэффициентах детерминации в атом разделе).

Допустим, мы хотим сравнить тесноту связи и двух распределениях, для которых рассчитаны г, и гг Существенность разницы между г, и г2 проверяем по неравенству

	->3,	(31)
	4 а Ч а 2	(31)
	4 а Ч а 2

Далее мы хотим углубить анализ связи между величинами JCи у, хотим прогнозировать у для данного значения х. Если есть основания для пред положения о наличии линейной связи, то следует найти параметры урав нения линейной регрессии

у = а + Ьх.

(32)

Параметры а и b находим по методу наименьших квадратов, т.е. по мето д у, который обеспечивает минимум выражению

Х [)\-(<*+&*)]

Для этого надо решить систему нормальных уравнений:

^ п уу = № + Ь ^ п х , ^ п „ х у = а '£ п х+Ь'£1п у-

(33)

Опять-таки прямую регрессию можно построить для любых х и у, но насколько она показательна, насколько тесно группируются значения ух около этой прямой, насколько стала меньше колеблемость у после того, как часть ее мы объяснили колеблемостью х. Ответом на этот вопрос служит ошибка линии регрессии, которая рассчитывается по формуле

,	У п у 2- а У п у - b ? \ппху	(34)
S =	— .	(34)
	N

В нашем примере

у = - 0,085 + 0,098*.

Syx= °>480-

Еслп * значительно коррелирует с у, то ошибка линии регрессии Syx будет значительно меньше S .. Из полной колеблемости у можно прибли зительно объяснить долю колеблемости у за счет колеблемости * величи ной г 2ху Остальная часть 1 - г*ху приходится на другие признаки.

В нашем примере

д.	1 - г 2ху = 1-0,076 = 0,924.
	Итак, мы рассмотрели связь между двумя величинами в предполо

жении, что это связь линейная. Но очень часто связь носит более сложный характер, кроме того, мы хотим изучить влияние на у не одного фактора

Найдем линейное выражение х, через хг. Уравнение линейной регрессии будет х, = -0,085 + 0,098х2.

Насколько улучшилась наша оценка, мы можем судить по ошибке линии регрессии S12= 0,480. Соответственно для х?получаем уравнение линейной регрессии хх= 0,869+0,0014лг3.

Ошибка этой линии регрессии S13 = 0,498.

Если сравнить S12 и S|3 с S, то увидим, что колеблемость признака уменьшается, т.е. признаки х2и дг3 вносят какой-то вклад в объяснение хр хотя в общем-то линейная связь между ними слабая. Далее пытаемся объяс нить вариацию х, совокупным влиянием факторов х2 и х3, опять же и предположении линейной связи, т.е. найдем параметры уравнения

х, =я+6|23х2 +&132х

(35)

Определим их, решая систему нормальных уравнений:

^ x = a N + b m ^ x 7+bm ^ x }

Е * Л =аЕ * г+Ьш Х^2+/?.з: Е *Л ’

Е *'*з = а ^ х ,+ Ь пз ^ хл + ь ш

Получаем:

х, = - 0,270 + 0,096х2 + 0,002х3.

О том, насколько удачно выражение х, через х2 и х3 говорит средняя квадратическая ошибка этого уравнения регрессии,вычисленная по фор муле

s;„ = s;-b IM	ъ ^ Е * л ~ Е * .Е - * з	(37)
	N 2
N 2

В нашем примере 5,.23 = 0,477.

Показателем степени связи между этими факторами является коэф фициент корреляции г|2= 0,275, г|3 = 0,080. Коэффициенты корреляции

значимы.

Корреляция между удовлетворенностью специальностью и со держанием труда выше, чем между удовлетворенностью специальностью

и размером заработной платы.

Связь увеличивается между х7 и совокупным влиянием х2 и х3. Коэф фициент множественной корреляции исчисляется по формуле

(38)

В нашем случае R, 23= 0,295.

Чистые корреляции дают зависимость между двумя переменными при условии, что псе остальные учитываемые факторы остаются неизменны ми. Возникает такая задача: корреляция гп = 0,275, но к этой связи как-то примешана связь между JC, и х2с ху Для того чтобы эллиминировать (уст

ранить) влияние ху подсчитываем г|2 для каждого значения х3, т.е. г12 в 1-й группе по содержанию труда, г,2 во 2-й группе по содержанию труда и т.д. Затем подсчитываем среднее значение коэффициента корреляции, и это будет искомым показателем корреляции между х и у, где влияние вариа ции JC3 устранено. Такое же назначение имеет коэффициент чистой корре

ляции

с 2_ с 2

.^1-3	°123	(39)
S132
или по формуле
" V F 5 F 5 ) ’		(40)

т.е. корреляция между JC, и х2 без влияния JC3		хотя это по-прожнему не
будет чистой корреляцией между JC,	и х2, потому что остается множество

неучтенных факторов, влияющих на JC, и х2 на их корреляцию.

В нашем примере г|23= 0,284; г|32 = 0,100. Вариация устраняемого фак тора скрывала влияние первых двух.

Обычно важно устранить влияние не одного, а нескольких факторов. Дальнейший анализ можно привести в таком направлении: dx23 = г2]23 — детерминация, т.е. та часть колеблемости JC,, которая может быть объясне на совокупным влиянием JC2 и JC3 на JC,. Эту общую детерминацию мы рас членяем на частные, приписываемые каждой из переменных JC2и JC3

Частные детерминации рассчитываются по формулам

_bwi

.23 S 2 • N 2

(41)

d 13/2

N 2

т.е. получаем две составляющие коэффициента общей детерминации. Каж дый из них рассматривается как измеритель частного вклада данной неза висимой переменной в «объяснение» колеблемой зависимой переменной. Коэффициенты частной детерминации могут быть использованиы в ка честве приближенного грубого указателя относительного значения несколь ких независимых переменных.

В нашем примере г2,23 = 0,087. Частные детерминации; */|23 = 0,075, </ш = 0,012.

Более удовлетворительные результаты получаются при разложении общей детерминации на так называемые коэффициенты последовательной детерминации:

4 : =

4 ,з = 4 :+ А *

(42)

Первое слагаемое измеряет сокращение колеблемости х,, «относимое за счет» влияния х2 и представленное как часть исходной вариации хг Второе слагаемое измеряет дополнительное или последовательное сокра щение колебляемости х, после того, как учтено влияние х2 Детермина ция, отвечающая первой независимой переменной, включает любре вли яние, проистекающее от первой переменной, плюс влияние, идущее че рез первую независимую переменную, поскольку она находится в зависимости с другими переменными, коррелируемыми с х,, т.е. корре ляция между х2 и х3 учтена в первом показателе dn

В нашем примере dx2= 0,078,2dn = 0,010, т.е. dl23= 0,078 + 0,010 = 0,087.

** *

Мы рассмотрели технику применения аппарата корреляции для ана лиза связей между характеристиками. Специально не увлекаясь достиже нием большой точности, а стремясь к наибольшей простоте, мы рассмат ривали влияния лишь двух факторов на третий и к тому же исходили из предположения о наличии линейных связей между ними, что в данном случае является малопоказательным. Изложение методов корреляции но сило иллюстративный характер.

Однако задача исследователя подобными шагами не ограничивается, потому что остается открытым вопрос, как охватить всю систему призна ков в целом. Базисом для дальнейшего анализа служит корреляционная матрица, каждый элемент которой равен коэффициенту корреляции не которых двух признаков из имеющихся во всей системе (см. Приложение, табл. В-8).

В психологии для многопризнаковых систем разработана теория фак торного анализа, биологи пытаются разрешить подобные задачи с помо щью корреляционных плеяд. Мы же пытались наложить на нашу систему граф связей; вершинами его являются некоторые признаки, и два при знака будут связаны дугой (они окажутся смежными вершинами), если коэффициент корреляции между этими признаками значим и длина дуги равна по величине коэффициенту корреляции | г |.

В этом случае получается почти что полный граф с замкнутыми цепя ми, и разобраться во всем этом множестве связей довольно трудно. Воз-

Частичный граф связей, включенных в матрицу (Приложение, табл. В-8)

Общий

рабочий

стаж

Возраст

0,380

никает вопрос: с каким критерием подойти к этому графу так, чтобы оборвать некоторые связи, чтобы система связей стала более простой, более компактной? Можно было бы поставить на этом графе некоторые задачи, рассматриваемые в общей теории графов, в частности найти так называемое дерево с максимальной длиной пути.

Возьмем 10 признаков, включенных в корреляционную матрицу. Как видно по табл. В-8 Приложений, матрица симметрична относительно глав ной диагонали г.. — коэффициент между признаком, стоящим в /-стро ке, и признаком, стоящим ву-м столбце. В частности, г|2 — это коэффи циент корреляции между РИ и удовлетворенностью работой.

Матрице однозначно соответствует полный граф парных корреляци онных связей. Из этого графа выделяем частичный граф, имеющий п =10 вершин и т = 9 ребер, так называемое дерево, и такое, чтобы длина его ветвей была наибольшей. Получаем частичный граф связей, включенных в корреляционную матрицу (см. граф на с. 364).

Длина ребер графа, соединяющих две смежные вершины («ветви» на шего «дерева» как бы составлены из таких ребер), соответствует величи нам коэффициентов корреляции между этими вершинами-признаками. Из полного графа мы выделили лишь то связи, которые дают наиболь шую тесноту, которую мы определили как наибольший коэффициент корреляции из всех коэффициентов, показывающих тесноту связи этой вершины с остальными девятью признаками. Все другие пути из этой вершины в каждую оставшуюся, кроме одной, будут давать меньшую связь. Для наглядности дуги вычерчены в масштабе так что за единицу принята дуга между вершинами «возраст» и «образование» как самое короткое рас стояние (наибольшая теснота), соответствующее наибольшему из всех коэффициентов, имеющихся в матрице (г = 0,945).

Подобная операция представляется нам весьма плодотворной для ре шения многих задач социального исследования. Например, обычно воз никает проблема определить зависимость некоторых характеристик пове дения людей от их демографических данных (возраст, пол. образование и т.д.). Между тем сами демографические данные (или — более широко — объективные и субъективные характеристики личности) также взаимо связаны и могут составлять синдром характеристик — группу тесно связан ныхфакторов (например, образование может очень высоко коррелировать с возрастом, стаж работы с возрастом и стажем по специальности и т.д.). Выделение синдромов позволит в дальнейшем упростить анализ связей между этим классом характеристик с характеристиками поведения. И на оборот, возможны синдромы в характеристиках поведения, что также упрощает задачи дальнейшего анализа. Так, в нашем случае был обнару жен синдром между степенью удовлетворенности работой и специаль ностью, что позволило далее ограничиваться анализом факторов, влияю щих только на удовлетворенность работой (и переносить вывод на интер претацию факторов, связанных с удовлетворенностью специальностью).

О чем говорит граф?

Наиболее значимой характеристикой (вершина графа) является об щий рабочий стаж, который содержит целую гамму связанной информа ции (от пего идут основные ветви графа). Мы видим, что при учете ука

занных в корреляционной матрице факторов (на самом деле их несрав ненно больше) РИ (объективные показатели работы и инициативности) наиболее тесно связаны со стажем работы по специальности, а затем с рабочим стажем, что свидетельствует о преимущественно мануфактур ном типе труда в нашей выборке, где опыт и навык играют более значи мую роль, чем общеобразовательная подготовка, которая имеет отрицатель ную корреляцию с возрастом (чем старше рабочий, тем меньше уровень образования), но, несмотря на это, более зрелый жизненный и произ водственный опыт при менее высоком уровне образования дает лучшие результаты работы (это обстоятельство подробно анализировалось в гла вах второй и четвертой).

Далее видно, что содержание труда ближайшим образом влияет на сте пень удовлетворенности работой и специальностью (синдром) и высоко коррелирует с возрастом и общеобразовательной подготовкой рабочего, тогда как возраст и стаж тоже синдром. Рабочий стаж довольно высоко коррели рует и с размером заработной платы (что вполне понятно).

Простой вывод из анализа этого графа таков: при дальнейших иссле дованиях отношения к труду разумно производить районированную вы борку единиц наблюдения но группировкам общего рабочего стажа; тогда мы получим гарантию достаточного объема информации по существен ным факторам, включенным в систему взаимосвязей «отношение рабо чего к труду».

Этот вывод важен для определения выборок при последующих рабо тах, но не столь содержателен для изучения взаимодействия рассмотрен ных признаков. Поэтому более целесообразно не ограничиваться общим графом, но выделить для детального анализа интересующие нас подгра фы. Пример такого анализа содержится в главе второй (см. граф. стр. 143), где мы рассматриваем взаимодействие факторов, обусловливающих сте пень удовлетворенности работой (и специальностью). Там же дана более развернутая содержательная интерпретация графа.

* * *

Таковы некоторые общие сведения о статистическом аппарате анали за данных, применявшихся в работе. Нам представляется важным сосре доточить внимание исследователя прежде всего на группе задач о статис тике вывода (проблема репрезентативности), затем на приемах определе ния тесноты связей между характеристиками. Что касается оценки параметров распределения, то эта задача обычно не встречает никаких трудностей, но, к сожалению, часто не увязывается с первой задачей.

Между тем без оценки качества выборки характеристика параметров рас пределений теряет значительную долю информации.

<<< < Предыдущая 15 16 17 18 19 20 21 22 23 24 25 2627 / 4727 28 29 30 31 32 33 34 35 36 37 38 39 > Следующая >>>

Соседние файлы в папке книги