сокращенный перевод статьи

Элдад Давидов "Межстрановое и межвременное сравнение измерения жизненных ценностей на данных второго раунда ESS"
Для обеспечения сравнимости ценностных индексов, являющихся производными двух или трех "сырых" ответов, измеренных в разных странах, необходимо обеспечить инвариативность, или устойчивость, этих конструктов. В статье измеряются три уровня инвариативности: конфигуральная (пункты соответствуют факторам, параметры модели значимы), метрическая (конфигуральная+факторные нагрузки равны в разных странах), скалярная (конфигуральная+метрическая+коэффициенты (intercepts) для всех факторов и пунктов равны)

Eldad Davidov "A Cross-Country and Cross-Time Comparison of the Human
Values Measurements with the Second Round of the European Social
Survey"//Survey Research Methods (2008) Vol.2 , No.1 , pp. 33-46


Появляется много разной литературы о проверке инвариантности теоретических конструктов в межстрановых исследованиях (Billiet 2003, Harkness and Mohler, 2003, Hui and Triandis, 1985), а также в лонгитюдных. Все приходят к мысли, что обеспечивать сравнимость измерений в разных странах - важный шаг перед тем как вообще начинать межстрановое или повторяющееся исследование. Если не тестируют данные на инвариантность, сравнения проблематичны, а выводы сомнительны и сильно смещены.
Инвариантность измерения означает, измеряет ли инструмент одно и то же в различных условиях наблюдения и изучения феномена (Horn and McArdle, 1992). Определять инвариантность можно разными способами: одни предлагают анализ сырых данных (item response theory), другие - Сарис, например, - демонстрируют как тестировать когнитивную (содержательную) эквивалентность. Однако многогруппный подтверждающий факторный анализ (MGCFA: Joreskog, 1971) - это наиболее популярный метод. Он обеспечивает статистическую проверку инвариантности измерения между группами или между двумя измеренями в разное время. Более того, он позволяет исследователю решать, какие статистики могут сравниваться, т.е. показывает разные уровни инвариантности. Здесь мы будем использовать тот же метод, по инструкции Steenkamp and Baumgartner, 1998.
Низший уровень инвариантности - "конфигуральная" (она же "слабая факторная инвариантность") - такая инвариантность требует, чтобы в каждой стране и каждой временной точке был одинаковый паттерн фиксированных и свободных факторных нагрузок. Другими словами, подтверждающий факторный анализ подтверждает, что отдельные пункты измерительного инструмента представляют одну и ту же конфигурацию нагрузок во всех странах и временных точках исследования. Конфигуральная инвариантность должна быть установлена для того, чтобы последующие тесты имели смысл. Конфигуральная инвариантность подтверждается, если многогрупповая модель ПФА подтверждает, какие пункты входят в каждый фактор, все факторные нагрузки значимы, и корреляции между факторами меньше единицы во всех странах и временных точках. Последнее требование гарантирует дискриминантную валидность между факторами.
Конфигуральная инвариантность не гарантирует, что отношения между факторами и пунктами одинаковы в разных странах и временных точках. Даже когда пункты формируют фактор, который представляет каждый конструкт, факторные нагрузки могут быть все же разными. Проверка следующего уровня инвариантности дает необходимые условия для утверждения эквивалентности значений конструктов. Этот уровень, метрическая инвариантность (она же "инвариантность измерения" или "сильная факторная инвариантность") - необходимое условие для того, чтобы предпринять сравнение факторных корреляций. Для достижения этого уровня необходимо, чтобы факторные нагрузки среди пунктов и факторов были инвариантны в разных странах и временных точках. Проверка проводится с помощью установки факторной нагрузки каждого пункта в рамках соответствующего фактора, чтобы в итоге фактор был одинаковым в разных группах.
Метрическая инвариантность считается достигнутой, если факторные нагрузки в разных группах одинаковы, при MGCFA. Метрическая инвариантность должна быть достигнута, чтобы последующие тесты имели смысл.
Третий уровнь инвариантности - необходим, чтобы можно было сравнивать средние по группам. Такие сравнения имеют смысл, только если скалярная инвариантность достигнута. Скалярная инвариантность, или тест нулевой гипотезы, в котором коэффициенты похожих пунктов регрессии на латентную переменную являются инвариантными в разных группах. Она предполагает, что межстрановые и межвременные различия средних по отдельным пунктам - это результат различий средних по соответствующим факторам.
Чтобы оценить скалярную инвариантность, нужно установить коэффициенты (intercepts) сырых пунктов одинаковыми в разных странах и временных точках, и проверить модель на конкретных данных.
Итак, чтобы предпринимать сравнения средних по факторам между странами и в разных временных срезах и интерпретировать их содержательно, требуются три уровня инвариантности: конфигуральная, метрическая и скалярная. Только если все три типа инвариантности подтверждены, мы действительно можем сравнивать средние.
Исследование посвящено изучению инвариантности шкалы ценностей в ESS, первый и второй раунды. В первом раунде (Davidov, Schmidt, and Schwartz, in press) инвариантность была подтверждена во всех 20 включенных туда странах, если из 21 исходного высказывания формировать 7 ценностей вместо 10. Три пары ценностей пришлось объединить, поскольку они были взаимозависимы: власть и достижения, конформность и традицию, универсализм и благожелательность. Однако, ценности, которые пришлось объединить, расположены рядом в круге Шварца (круговой теоретической структуре ценностей). Пять дополнительных связей были введены: между объединенным фактором универсализм-благожелательность и "важно быть богатым" и "важно иметь приключения"; между фактором конформность-традиция и пунктом "важно быть уважемым"; между фактором власть-достижение и пунктом "важно быть скромным"; также между фактором конформность-традиция и пунктом "важно быть богатым". Все ценности показали метрическую инвариантность в разных странах. Далее мы оценим инвариантность измерения жизненных ценностей в ESS второго раунда (2004-2005).
ДАННЫЕ
На первом этапебыли вычислены 25 матриц вариации-ковариации для каждой страны, испольуя попарное удаление пропущенных данных. Эти матрицы использовались для формирования модели в каждой из стран. Использование матриц вариации-ковариации вместо сырых данных для анализа дает исследователю модификацию индексов с помощью программы, которая сообщает об ошибках в модели. После необходимых операций с моделью, каждая из них была переделана на основе сырых данных с помощью процедуры максимального правдоподобия полной информации (full information maximum likelihood), чтобы решить проблему пропущенных значений. Использовалась программа Amos 6.0.
МЕЖСТРАНОВАЯ ИНВАРИАНТНОСТЬ
Первый вопрос, представленный здесь, - насколько хорошо данные второго раунда измеряют ценности в 25 странах. Byrne, 2001 подчеркивал важность анализа внутри каждой из стран, вместо того, чтобы предпринимать множественный аналих групп стран. Отдельный подтверждающий факторный анализ в каждой стране на основе 10 ценностных факторов, скоррелированных друг с другом, показал, что все пункты имеют устойчивые факторные нагрузки на соответствующие ценностные факторы. Однако, в каждой стране, по крайней мере в двух парах, ценности очень сильно коррелировали и не могли быть включены в модель по отдельности (т.е. решение было недопустимо). Чтобы решить эту проблему, такие пары ценностей были определены. ОТ 5 до 8 ценностей получилось в разных странах. Это не означает, что теория Шварца плоха, однако небольшое количество пунктов, из которых формируется каждый ценностный индекс (2 или 3 пункта на индекс) не может четко отделить одну ценность от другой и требует, следовательно, укрупнения единиц анализа.
Далее, также был предпринят MGCFA, который включал 25 стран, с целью оценить конфигуральную инвариантность. Поскольку теоретические 10 ценностей не могут быть идентицфицированы, я пользовался моделью, полученной в предыдущей работе и проверял, подойдет ли она для этих данных. Это решение включало 7 ценностей и 5 кросс-нагрузок. Однако, в 11 странах, по крайней мере одна добавочная пара ценностей была сильно закоррелирована и не могла быть включена в модель по отдельности (т.е. решение было недопустимо). Интересно, что те же страны, в которых было выявлено менее 7 ценностей, были отмечены при индивидуальном анализе на данных 2 раунда. Измерение этих ценностей не охватывает мелких различий между ценностями в этих странах. В результате пришлось сократить количество стран, осталось 14, для каждой – 7-индексовое решение. В этой модели универсализм объединен с благожелательностью, власть с достижениями, а конформность с традицией. Таким образом, теория Шварца подтверждается в целом на данных 2 раунда, но только в 14 странах. Также в этих 14 странах подтверждается конфигуративная инвариантность. В этой модели пятая связь между конформностью-традицией и пунктом "важно быть богатым" (которая была обязательной в первом раунде) не значима на этих данных. Возможно, это связано с другим набором стран в этом раунде. Остальные связи сохранились неизменными. Негативные связи между оппозиционными латентными ценностями не охватывают все оппозиции. Возможно, объединение трех пар ценностей в один фактор делает необходимым добавление этих путей. Вполне возможно, что если бы в анкету включили 40-пунктовую версию вместо урезанной 21-пунктовой, мы смогли бы четко выделить 10 ценностей, модель имела бы лучшие параметры, и вторичные пути не понадобились бы.
Модель CFA была составлена и оказалась неплоха настолько, чтобы не быть отвергнутой. Другими словами, конфигуральная инвариантность подтверждается этой моделью, и следовательно можно считать, что инвариантность подтверждена во всех 14 странах.
Только 11 стран из 20 в первом раунде также показали конфигуральную инвариантность во втором раунде. Восемь других стран не показали этого. Важным результатом является то, что инвариантность в одних и тех же странах не остается стабильной во времени. Это неожиданный результат, который следует изучить в дальнейшем. Глубинные интервью могли бы дать представление о том, насколько значение пунктов ценностного опросника изменяется в разных странах и во времени. В будущем следует предпринять альтернативное исследование, с подходом, предложенным Сарисом и Галлхофером на когнитивное тождество.
Теперь обратимся к следующему уровню инвариативности, метрической. В частности, эта проверка отвечает на вопрос насколько пункты соответствуют ценностным индексам в разных странах. Это необходимое условие того, чтобы гарантировать, что люди одинаково понимают вопросы во всех 14 странах. Установление метрической инвариантности позволит сравнивать связи между ценностями и другими теоретическими конструктами, интересующими нас. С целью проверить метрическую инвариантность, факторные нагрузки между индикаторами и соответствующими им факторами были утсновлены одинаковыми в каждой их стран. Этот тест был проведен в той же (как и конфигуральная инвариантность) модели, поскольку конфигуральная инвариантность суть необходимое условие для метрическое инвариантности.
Здесь модель также получилась неплохой. Позволив некоторым факторным нагрузкам варьировать в различных странах и устанавливая только равенство двух нагрузок на каждый фактор, мы можем улучшить модель. Это могло привести к частичной метрической инвариантности, которая достаточна для межстранового сравнения конструктов.Однако, поскольку показатели качества полной модели инвариантности удовлетворительны, частичная метрическая инвариантность не представляется необходимой. Нестандартизованные инвариантные факторные нагрузки модели метрической инвариантности приведены в приложении А. Эти факторные нагрузки очень похожи на те, что были получены в 1 раунде.
Наконец, протестируем скалярную инвариантность. Установление скалярной инвариантности позволит сравнивать средние по факторам. Этот тест проводится при установлении равенства коэффициентов (intercepts) пунктов во всех 14 странах, в дополнение к факторным нагрузкам между пунктами и факторами. Параметры полученной модели указывают на то, что она должна быть отвергнута. Следовательно, шкала ценностей не прошла проверку на скалярную инвариативность.
Этот вывод говорит о том, что средние по ценностным индексам нельзя сравнивать даже в сокращенном списке из 14 стран. Однако, остается возможность сравнивать страновые средние ценностных индексов в меньшем наборе стран. В этих странах может иметься скалярная инвариантность. Сорбом (1974) показал, что для того, чтобы иметь возможность сравнивать средние по группам, средние уровни следует установить равными нулю в одной группе, чтобы идентифицировать модель. Исследователи, заинтересованные в сравнении средних уровней отдельных ценностей в конкретных странах, могут следовать такому же алгоритму, перед тем как предпринимать сравнение. То есть пока инвариантность не установлена для всех стран второго раунда ESS, предполагается, что можно сравнивать только небольшой набор стран, которые являются инвариантными.
ВРЕМЕННАЯ ИНВАРИАНТНОСТЬ
Теперь обратимся к инвариантности в разных точках времени. Дважды участвовали в ESS 19 стран, и это позволяет описывать изменения средних по ценностным индексам. И снова анализ начинается с модели, полученной в раунде 1. С помощью этой модели я протестировал, насколько это решение подходит для лонгитюдных сравнений. Эта модель включает 7 ценностей и 5 кросс-нагрузок. Если параметры модели неприемлемы, можно будет подумать, как скорректировать модель.
Последовательно конфигуральная, метрическая и скалярная инвариантность были проверены в каждой из стран. Девять стран прошли тест на метрическую и скалярную инвариантность, и не потребовалось никаких модификаций модели. В 10 других странах, метрическая и скалярная инвариантность была установлена после нескольких изменений. В 8 странах, две или три близких ценности пришлось объединить, поскольку их нельзя было включить в модель по отдельности. Другими словами, модель, полученная Давидов, Шмидт, Шварц (ин пресс) не может быть оставлена, и менее 7 ценностей могут быть идентифицированы в этих странах. Другие модификации модели - это ковариация ошибок, добавочные кросс-нагрузки, или устранение установки на равенство коэффициентов. Короче, сравнения во временной перспективе также очень ограничены и если все же добиться сравнимости этих данных с помощью подходящей модели и объядиняя некоторые ценности друг с другом, мы увидим лишь незначительное изменение ценностей, а в 5 странах - их полное отсутствие.

ИТОГИ И ОБСУЖДЕНИЕ
Создатели ESS выбрали шкалу Шварца для измерения жизненных ценностей и включили ее в ядро вопросника. В данном исследовании следующие три вопроса были подняты:
1. Подходит ли модель, разработанная для первого раунда, - данным второго раунда?
2. Можно ли сравнивать средние по всем странам, включенным во 2-й раунд ESS?
3. Можно ли сравнивать средние из первого раунда со средними из второго?

В 25 отдельных подтверждающих факторных анализах в каждой стране, между ценностными факторами и их индикаторами были найдены устойчивые факторные нагрузки. Однако, несколько пар ценностей показали очень высокие корреляции. В результате, эти ценности пришлось объединить. После повторения ПФА в каждой стране с объединенными факторами, я обнаружил от 5 до 8 ценностей в каждой стране. Объединенные ценности близки к теоретической модели (кругу Шварца) и репрезентируют тесно связанные мотивации. То есть этот результат отнюдь не оспаривает теорию Шварца.
Далее были предприняты проверки на инвариантность - конфигуральную, метрическую и скалярную. Модель подошла только к 14 странам. С этим набором стран модель была принята и показала конфигуральную инвариантность с 7 ценностями.
Данная публикация показала, что можно использовать шкалу ценностей в ESS только с 7 ценностями, при определенном наборе стран. Большее количество ценностей можно начать сравнивать, если уменьшить список сравниваемых стран. Например, Франция и Бельгия, были найдены 8 устойчивых ценностей с помощью частных ПФА, можно также это проверить с 8 ценностями через многогруппный ПФА.
Далее, я проверял метрическую инвариантность. Оценка метрической инвариантности привела к выводу, что значение индикаторов, как они измерялись в ESS, вероятно одинаковое в 14 странах. Несмотря на культурные различия, люди судя по всему понимали вопросы примерно одинаково. Когнитивные тесты могли бы поддержать эти выводы. Однако, скалярная инвариантность не была подтверждена данными. Исследователи не могут использовать ценностный инструмент для сравнения средних по странам между собой. Меньшие наборы стран могут иметь скалярную инвариантность, по крайней мере частично. Только когда скалярная инвариантность подвтерждена, можносравнивать средние.
Основываясь на данных выводах, исследователь может использовать ценностную шкалу второго раунда и предпринимать сравнения между индивидуальными данными о ценностях и другими переменными, такими как социально-демографическими характеристиками, установками и поведением в 14 странах. Сходства или различия между странами в том, как соотносятся ценностные приоритеты с поведением или установкой может быть значимо интерпретированы.
Увеличивающаяся доступность данных международных исследований в наши дни позволяет исследователям производить сравнения стран и временных срезов. Гарантировать инвариантность данных значит обеспечить легитимность их сравнения. Без оценки инвариантности измерения любое сравнение ставится под вопрос. Инвариантность следует устанавливать и для панельных данных. В этом исследовании я проиллюстрировал, как можно тестировать инвариантность, этот алгоритм может использоваться и для других данных.
Последние исследования говорят, что полная или частичная инвариантность измерения не гарантирована, факторы все же могут оставаться эквивалентными. Сарис и Галхофер указывают на то, что инвариантность измерения слишком строга и может быть ошибочной, даже если функциональная эквивалентность сохраняется. Другими словами, там где есть когнитивная инвариантность, инвариантности измерения может быть отвергнута, из-за различий между тонкостями измерения и вопросов в разных странах. Например, разные реакции на метод опроса, используемые в разных странах, может привести проверку на инвариантность измерения к провалу, хотя связь между определением и пониманием инвариантна. Альтернативная процедура могла бы дополнить когнитивные тесты в разных странах. Однако, такие дополнительные проверки очень дороги и трудозатратны. Поэтому нужно довольствоваться такими вот проверками измерения.

Оставить комментарий

Комментарии: 0