| Научный журнал
 STATISTICA ЖӘНЕ SPSS БАҒДАРЛАМАЛЫҚ ҚАМСЫНДАНДЫРУДЫ ҚОЛДАНУМЕН НОМИНАЛДЫ ЖӘНЕ РАНГІЛІК АУЫСПАЛЫ МӘЛІМЕТТЕРДІ ТАЛДАУ | статьи | Научный журнал

STATISTICA ЖӘНЕ SPSS БАҒДАРЛАМАЛЫҚ ҚАМСЫНДАНДЫРУДЫ ҚОЛДАНУМЕН НОМИНАЛДЫ ЖӘНЕ РАНГІЛІК АУЫСПАЛЫ МӘЛІМЕТТЕРДІ ТАЛДАУ

Жазба жазу күні: 11-01-2017
Автор(ы): Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498, Сергей В. Иванов 5, http://orcid.org/0000-0003-0254-3941 Мария А. Горбатова 2, http://orcid.org/0000-0002-6363-9595 1 Қоғамдық Денсаулық сақтау Ұлттық Институты, Осло қ., Норвегия; 2 Солтүстік Мемлекеттік Медициналық Университеті, Архангельск қ., Ресей; 3 Х.А. Ясави ат. Халықаралық Қазақ – Түрік Университеті, Туркестан, Қазақстан; 4 Солтүстік - Шығыс Федералдық Университеті, Якутск қ., Ресей; 5 И.И. Мечников атынд. Солтүстік – Батыс мемлекеттік медициналық университеті, Санкт-Петербург қ., Ресей.

УДК 614.2 + 303.4

 

Түйіндеме

STATISTICA ЖӘНЕ SPSS БАҒДАРЛАМАЛЫҚҚАМСЫНДАНДЫРУДЫҚОЛДАНУМЕННОМИНАЛДЫЖӘНЕРАНГІЛІКАУЫСПАЛЫМӘЛІМЕТТЕРДІТАЛДАУ

 

Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498,

Сергей В. Иванов 5,http://orcid.org/0000-0003-0254-3941

Мария А. Горбатова 2,http://orcid.org/0000-0002-6363-9595

 

Қоғамдық Денсаулық сақтау Ұлттық Институты, Осло қ., Норвегия;

Солтүстік Мемлекеттік Медициналық Университеті, Архангельск қ., Ресей;

Х.А. Ясави ат. Халықаралық Қазақ – Түрік Университеті, Туркестан, Қазақстан;

4 Солтүстік - Шығыс Федералдық Университеті, Якутскқ., Ресей;

И.И. Мечников атынд. Солтүстік – Батыс мемлекеттік медициналық университеті, Санкт-Петербург қ., Ресей.

 

Осы жұмыста Statistica 10 және SPSS 20 бағдарламалық қамсындандыруды қолданумен номиналды және рангілік ауыспалылармен сипатталған мәліметтердің статистикалық талдауын орындау туралы жалпы мәліметтер берілген. Пирсонның хи-квадрат, Йейтстің түзетуі Фишердің нақты критерилері, сол сияқты рангілік ауыспалыларды талдау үшін статистикалық критерилер батареясы қарастырылады. Осы мақала сапалы мәліметтерді талдау туралы жалпы мәліметтер беруге талап етілген және статистика және клиникалық эпидемиология бойынша мамандандырылған әдебиетті оқудың орнын толтырмайды.

Негізгі сөздерStatistica, SPSS, сапалы мәліметтер, Йейтстіңтүзетуі, хи-квадрат критериі, Фишердің нақты критериі, Мак-Нимардыңкритериі, салыстырмалы қауіп, шанстардыңқатыстылығы.

 

 

Библиографическая ссылка:

Гржибовский А.М., Иванов С.В., Горбатова М.А. Анализ номинальных и ранговых переменных данных с использованием программного обеспечения Statistica и SPSS / / Наука и Здравоохранение. 2016. №6. С. 5-39.

Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Analysis of nominal and ordinal data using Statistica and SPSS software. Nauka i Zdravookhranenie [Science & Healthcare]. 2016, 6, pp. 5-39.

Гржибовский А.М., Иванов С.В., Горбатова М.АStatistica және SPSS бағдарламалық қамсындандыруды қолданумен номиналды және рангілік ауыспалы мәліметтерді талдау / / Ғылым және Денсаулық сақтау. 2016. №6. Б. 5-39.

 

АНАЛИЗ НОМИНАЛЬНЫХ И РАНГОВЫХ ПЕРЕМЕННЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ STATISTICA И SPSS

 

Андрей М. Гржибовский 1-4, http://orcid.org/0000-0002-5464-0498,

Сергей В. Иванов 5,http://orcid.org/0000-0003-0254-3941

Мария А. Горбатова 2,http://orcid.org/0000-0002-6363-9595

 

Национальный Институт Общественного Здравоохранения, г. Осло, Норвегия;

Северный Государственный Медицинский Университет, г. Архангельск, Россия;

Международный Казахско-Турецкий Университет им. Х.А. Ясави, г. Туркестан, Казахстан;

4 Северо-Восточный Федеральный Университет, г. Якутск, Россия;

Северо-Западный Государственный Медицинский Университет им. И.И. Мечникова, г. Санкт-Петербург, Россия.

 

Резюме

В настоящей работе представлены общие сведения о выполнении статистического анализа данных, описываемых номинальными и ранговыми переменными, с использованием программного обеспечения Statistica 10 и SPSS 20. Рассматриваются критерии хи-квадрат Пирсона, поправка Йейтса, точный критерий Фишера, а также батарея статистических критериев для анализа ранговых переменных. Настоящая статья призвана дать общие сведения об анализе качественных данных, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.

Ключевые слова:StatisticaSPSS, качественные данные, поправка Йейтса, критерий хи-квадрат, точный критерий Фишера, критерий Мак-Нимара, относительный риск, отношение шансов.

 

Abstract

 

ANALYSIS OF NOMINAL AND ORDINAL DATA USING STATISTICA AND SPSS SOFTWARE

 

Andrej M. Grjibovski 1-4,http://orcid.org/0000-0002-5464-0498,

Sergej V. Ivanov 5http://orcid.org/0000-0003-0254-3941

Maria A. Gorbatova 2,http://orcid.org/0000-0002-6363-9595

 

Norwegian Institute of Public Health, Oslo, Norway;

Northern State Medical University, Arkhangelsk, Russia;

International Kazakh-Turkish University, Turkestan, Kazakhstan;

North-Eastern Federal University, Yakutsk, Russia;

North-Western State Medical University n.a. I.I. Mechnikov, St. Petersburg, Russia.

 

This is the sixth paper of a series of articles where we describe basic principles of statistical data analysis using Statistica and SPSS software for beginners. Step-be-step algorithms for Pearson chi-square test and various tests for qualitative data are presented. The main aim of this paper is to provide basic knowledge on qualitative data analysis with practical examples using popular software. The article complements, but does not substitute specialized literature on biostatistics and clinical epidemiology.

Keywords:Statistica, SPSS, chi-square, qualitative data, Yates correction, Fisher exact test, McNemar test, relative risk, odds ratio

 

 

 

 

Настоящая статья продолжает серию публикаций, посвященных статистическому анализу данных биомедицинских исследований [14, 15, 16, 17, 18]. Высокое качество статистического анализа является обязательным условием востребованности результатов исследований международным научным сообществом [29, 1], поэтому задачами настоящей серии статей является формирование у начинающего исследователя базисных представлений о статистической обработке данных, приобретение практического опыта работы с современными статистическими пакетами программ и предупреждение типичных ошибок, возникающих в процессе анализа результатов исследования.

Авторы настоятельно рекомендуют читателю еще на этапе планирования научно-исследовательской работы ознакомиться с основной литературой по эпидемиологии (например, [34, 25, 37]), и изучить ключевые практические аспекты организации и интерпретации результатов различных типов научных исследований в здравоохранении (одномоментных, когортных, экологических, экспериментальных исследований и «случай-контроль»), которые представлены в статьях, опубликованных в 2015 году в журнале «Наука и Здравоохранение» [11, 12, 13, 19, 20].

В настоящей статье будут представлены различные способы статистического анализа результатов исследования, описываемых качественными переменными.

Очень часто при выполнении различных видов эпидемиологических исследований в медицине и здравоохранении фиксируются и анализируются признаки, не имеющие непосредственной количественной меры – так называемые качественные признаки [14, 10, 33, 34]. Качественные признаки характеризуют принадлежность явления к какой-либо определенной категории, и подразделяются на номинальные (например, нозологическая форма заболевания, группа крови, наличие осложнений, номер группы наблюдения), и порядковые (ранговые, ординальные). Порядковые признаки отличаются от номинальных тем, что могут быть размещены в порядке возрастания или убывания (например, степень тяжести состояния, стадия сердечной недостаточности, возрастная категория, уровень образования). Порядковые переменные, безусловно, представляются в виде чисел, но, в отличие от количественных признаков, они не дают информации о степени различий между находящимися рядом уровнями значений порядковой переменной и не могут быть подвергнуты арифметическим операциям.

Следует отметить, что порядковые переменные могут быть сформированы на основании количественных переменных, что может быть использовано в процессе выполнения некоторых видов статистического анализа (например, логистической регрессии): в этом случае количественную переменную разделяют на ряд категорий, например, непрерывную переменную возраста пациентов разделяют на возрастные группы, уровень гемоглобина крови разделяют на степени тяжести анемии, непрерывную переменную роста разделяют на низкий, средний и высокий рост и т.п.

К качественным данным относятся также и дихотомические (бинарные) переменные, которые могут принимать только два альтернативных значения (например, мужской или женский пол, основная или контрольная группа наблюдения, благоприятный или неблагоприятный исход заболевания, нормализация или отсутствие нормализации регистрируемого показателя). В ряде случаев бывает целесообразным представлять дихотомические переменные как порядковые, имеющие две категории значения, одна из которых считается имеющей более высокий уровень по сравнению со второй.

Способом описания качественных признаков является регистрация количества объектов в выборке (или генеральной совокупности), имеющих одно и то же значение качественной переменной, с последующим расчетом доли от общего числа объектов, которая приходится на то или иное значение признака (например, доля умерших пациентов в когорте за определенный период наблюдения, доля атипичных клеток в культуре, доля находящихся на диспансерном наблюдении лиц среди населения, доля болезней системы кровообращения в общей структуре заболеваемости и проч.). Кроме доли, качественная переменная может быть описана с использованием частоты – цифры, показывающей, сколько раз за какой-либо период времени происходило некоторое событие, проявлялось определенное свойство объекта, либо наблюдаемый параметр достигал данной величины (например, число новых случаев внебольничных пневмоний за год на 100 000 населения, число ошибочных результатов измерений на каждые 1 000 измерений, выполненных с помощью прибора, и проч.).

С практической точки зрения одно из главных преимуществ использования качественных признаков в исследовательском процессе заключается в том, что они позволяют оценивать многие истинные клинически значимые исходы исследования, в то время как количественные признаки в большинстве случаев позволяют оценивать суррогатные исходы (динамика показателей количественных диагностических тестов, уровня холестерина крови, динамика массы тела и проч.) [34, 38].

Например, для плацебо-контролируемого исследования (когортного), направленного на оценку влияния нового препарата на течение артериальной гипертензии, динамика уровня артериального давления у пациентов основной и контрольной групп может рассматриваться как суррогатный показатель, описываемый количественной переменной, но гораздо более важным с клинической точки зрения будет оценка частоты развития в основной и контрольной группах сосудистых катастроф (инсульт и инфаркт) – качественный показатель, описываемый дихотомической переменной (развилось осложнение / не развилось осложнение). Иными словами, истинным исходом в данном случае будет считаться частота развития инсультов и инфарктов в основной и контрольной группах.

Таким образом, результаты исследования, описываемые с помощью качественного приз-нака, представляют собой долю (или частоту).

Для наглядного представления о работе с качественными переменными, рассмотрим гипотетический пример: допустим, проведено поперечное исследование распространен-ности миопии среди учеников, отдельно взятой школы. Объем выборки составил 150 человек, и выборка была репрезентативной, то есть достаточно точно отражала свойства и характеристики генеральной совокупности (в данном случае генеральной совокупностью являются все дети, обучающиеся в школе). Качественным признаком, оцениваемым в процессе исследования, является факт наличия миопии, который описывается дихотомической качественной переменной, имеющей два альтернативных значения («миопия есть» и «миопии нет»). В результате исследования обнаружено, что миопия имела место у 54 обследованных детей. Соответственно, доля школьников с миопией составила 36%. Но можем ли мы сказать, что среди школьников именно 36% детей будут близорукими? Ответ – однозначно нет, так как точечная оценка ни в коей мере не может отражать структуру явления в генеральной совокупности, за исключением случаев, когда в исследование были включены все члены генеральной совокупности, что бывает достаточно редко.

Соответственно, с позиции практического использования результатов данного исследования следует определить некие границы, в которых предположительно будет находиться доля школьников с миопией в генеральной совокупности. Для этого рассчитывается 95% доверительный интервал (ДИ) для доли, который представляет собой область, в которую с 95% вероятностью попадет истинное значение доли в генеральной совокупности. Иными словами, можно с 95% надежностью (вероятностью правильного ответа) сказать, что истинное значение частоты встречаемости признака в генеральной совокупности будет находиться в пределах 95% ДИ.

Существуют различные способы расчета 95% ДИ (таблице 1), каждый из которых имеет свои особенности [8].

 

 

Таблица 1.

Методы расчета доверительных интервалов для долей и частот.

Способ

Особенности использования

Метод Уилсона

Оптимальный метод для оценки частот: позволяет оценить доверительные интервалы для очень малых и очень больших частот, применим для выборок малого объема

Метод Вальда

Метод не рекомендуется для использования при малых объемах выборок и в случае, если частота встречаемости признака менее 25% или более 75%. Доверительные интервалы в большинстве случаев оказываются слишком узкими

Метод Вальда с коррекцией по Агрести-Коуллу

Метод не рекомендуется для использования при малых объемах выборок и в случае, если частота встречаемости признака приближается к 0% или 100%

Угловое преобразо-вание Фишера

Метод не рекомендуется для использования, если частота встречаемости признака менее 25% или более 75%.

«Точный метод» Клоппера-Пирсона

Доверительные интервалы, полученные с использованием метода, в большинстве случаев слишком широки (степень консервативности метода увеличивается по мере уменьшения объема выборки, особенно при n < 15)

 

 

Рассмотрим наиболее оптимальный метода расчета 95% ДИ – метод Уилсона. В данном случае границы 95% ДИ будут рассчитываться по формулам [8]:

Все расчеты можно произвести вручную, но более удобным с практической точки зрения способом расчета 95% ДИ по методу Уилсона является использование онлайн-калькулятора, размещенного на интернет-ресурсе «VassarStats: Website for Statistical Computation» по адресу http://faculty.vassar.edu/lowry/prop1.html.

Общий вид данного калькулятора представлен на рисунке 1. Возвращаясь к приведенному выше примеру исследования, для расчета 95% ДИ доли школьников с миопией с помощью онлайн-калькулятора в поле «k» введем количество наблюдений в выборке, имеющих изучаемый качественный признак – миопию (54 наблюдения), а в поле «n» – объем выборки (150 наблюдений). После нажатия кнопки «Calculate» в поле «Proportion» калькулятор представит долю в виде десятичной дроби, а нижнюю и верхнюю границу 95% ДИ – в поле «Lower limit» и поле «Upper limit» соответственно (окно «95% confidence interval: no continuity correction»).

 

 

Рис. 1. Онлайн-калькулятор для расчета 95% ДИ для долей (частот) по методу Уилсона (http://faculty.vassar.edu/lowry/prop1.html).

 

 

Таким образом, доля школьников с миопией в генеральной совокупности (популяции) будет с 95% надежностью будет находиться в границах от 28,8% до 43,9%. Итак, теперь мы можем записать, что в генеральной совокупности доля школьников с миопией составляет 36,0% (95% ДИ: 28,8-43,9%).

Следует отметить, что ширина ДИ напрямую зависит от объема выборки: чем больше объем выборки, тем меньше будет его ширина, и, соответственно, тем точнее будет предсказано фактическое значение доли (или частоты) в генеральной совокупности, что несет в себе большую практическую пользу.

Графическое отражение связи объема выборки и ширины ДИ представлено на рисунке 2. На данном графике представлены верхняя и нижняя границы 95% ДИ для доли в выборке, равной 25%, рассчитанные с помощью метода Уилсона. Видно, что для объема выборки в 20 наблюдений границы 95% ДИ доли располагается в пределах от 11% до 47%, то для выборки в 160 наблюдений он существенно сужается до границ от 19% до 32%, а для выборки в 640 наблюдений – до границ от 22% до 29%. Таким образом, для того, чтобы получить полезные для практического применения границы ДИ, необходимо иметь достаточный объем выборки, которая, в свою очередь, должна быть репрезентативной. Следует заметить, что границы 95% ДИ не являются симметричными, и асимметрия тем больше, чем ближе к 0% или 100% располагается значение доли в выборке.

Рис. 2. Изменение границ 95% ДИ, рассчитанного по методу Уилсона,

в зависимости от объема выборки (значение доли в выборке – 25%).

 

 

Таким образом, расчета доли в выборке указанием 95% ДИ может оказаться достаточно для представления результатов исследований, направленных на оценку частоты данного явления в генеральной совокупности, но если целью исследования является проверка статистических гипотез о различиях между долями или частотами в различных группах наблюдения (как во многих аналитических исследованиях), то требуется использование других методов статистического анализа.

Для этого используются статистические методы сравнения частот (или долей) в группах. Дизайн многих эпидемиологических исследований (например, поперечных, когортных, «случай-контроль») предполагает получение в результате исследования данных о частотах событий в группах наблюдения [11, 12, 13]. Например, в случае плацебо-контролируемого рандомизированного клинического испытания лекарственного препарата (когортное исследование) будут получены данные о количестве пациентов в основной группе (получавшей исследуемый препарат), и контрольной группе (получавшей плацебо), у которых за период наблюдения наблюдалась положительная динамика заболевания (итоговая дихотомическая переменная имеет 2 альтернативных значения – «положительная динамика» и «отсутствие положительной динамики»).

Подобные данные о частотах интересующих исследователя событий в сравниваемых группах можно представить в виде удобного эпидемиологического инструмента – четырехпольной таблицы (таблица 2) [34, 25]. Данная таблица названа четырехпольной таблицей сопряженности (2×2 ячеек), так как исходные данные присутствуют в четырех полях таблицы – A, B, C и D. Используются также многопольные таблицы сопряженности (например, 2×3, 3×5 ячеек и др.), о которых будет сказано ниже.

 

 

Таблица 2.

Четырехпольная таблица сопряженности.

 

Наличие ожидаемого исхода

Да

Нет

Всего

Действие фактора

Да

A

B

A + B

Нет

C

D

C + D

Всего

A + C

B + D

A + B + C +D

 

 

Представим гипотетическое когортное исследование, целью которого является оценка влияния запыленности воздуха рабочей зоны на частоту развития болезней органов дыхания у работников производства. Допустим, в исследование были включены 197 работника предприятия, в рабочей зоне которых проводились замеры запыленности воздуха, и в течение года регистрировались случаи появления болезней органов дыхания. В данном случае запыленность является номинальной дихотомической переменной, которая принимает два взаимоисключающих значения: «степень запыленности превышает предельно допустимый уровень» и «степень запыленности равна или ниже предельно допустимого уровня». Переменная, кодирующая исход, также принимает два альтернативных значения – «да» и «нет».

Результаты данного исследования представлены в таблице 3.

 

 

Таблица 3.

Влияние запыленности воздух рабочей зоны на частоту развития болезней органов дыхания у работников производства.

 

Развитие заболеваний дыхательной системы (исход)

Да

Нет

Всего

Степень запыленности (фактор)

превышает предельно допустимый уровень

28

66

94

равна или ниже предельно допустимого уровня

16

87

103

Всего

44

153

197

 

 

В результате обследования 197 работников установлено, что за период наблюдения среди 94 человек, в воздухе рабочей зоны у которых степень запыленности превышала предельно допустимый уровень, у 28 развились заболевания дыхательной системы, а среди 103 работников, в воздухе рабочей зоны у которых степень запыленности не превышала предельно допустимый уровень, данные заболевания появились у 16 лиц.

Нам необходимо ответить на вопрос, ассоциировано ли превышение предельно допустимого уровня запыленности воздуха рабочей зоны с повышением числа случаев заболеваний дыхательной системы работающих. Для этого воспользуемся критерием χ2 Пирсона – одним из наиболее часто используемых способов статистической обработки качественных данных. Для наглядного представления о принципе действия данного критерия в логических рассуждениях пойдем от обратного: предположим, что степень запыленности никоим образом не влияет на число новых случаев заболеваний дыхательной системы у рабочих (нулевая статистическая гипотеза). В таком случае число наблюдений в ячейках распределилось бы пропорционально таким образом, чтобы отношение числа заболевших к не заболевшим было бы примерно равно при наличии и отсутствии действия исследуемого фактора (то есть A/B = C/D). Мы можем рассчитать ожидаемое количество наблюдений в ячейках при справедливости нулевой гипотезы: для каждой ячейки оно рассчитывается путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений в выборке. Так для ячейки A ожидаемое число наблюдений будет равно 94 (сумма по ряду) × 44 (сумма по столбцу) / 197 ≈ 21, для ячейки B – 103 × 153 / 197 ≈ 73, а для ячеек С и B – 23 и 80 соответственно.

Заметим, что ожидаемые частоты являются расчетными показателями и не обязательно принимают целочисленные значения. Принцип действия критерия χ2 заключается в сравнении фактических частот, полученных в результате исследования, с ожидаемыми частотами, с последующей оценкой вероятности справедливости нулевой статистической гипотезы. Рассчитывается критерия χ2 по формуле:

где O – фактическое число в ячейке таблицы, а E – ожидаемое число в данной ячейке таблицы.

Рассчитаем значение критерий χ2 для нашего примера:

χ2 = (28 - 21)/ 21 + (66 - 73)/ 73 + (16 - 23)/ 23 + (87 - 80)/ 80 = 5,747

Далее полученное значение сравним с критическим значением для (r - 1) × (c - 1) числа степеней свободы (где r – количество рядов, с – количество столбцов). В четырехпольной таблице и число столбцов, и число строк равно 2, поэтому df = (2 - 1) × (2 - 1) = 1. Для степени свободы, равной 1, для уровня статистической значимости p < 0,05 критическое значение критерия χ2 равно 3,841 [32, 26, 5]. Так как полученное в результате расчетов значение критерия χ2 (5,747) превышает критическое, нулевая гипотеза об отсутствии влияния степени запыленности воздуха рабочей зоны на число заболеваний дыхательной системы у рабочих отвергается при критическом уровне значимости, равном 0,05 (χ2 = 5,747; df = 1; р < 0,05).

Таким образом, мы можем сделать вывод о том, что превышение предельно допустимого уровня запыленности воздуха рабочей зоны ассоциировано с повышением числа случаев заболеваний дыхательной системы у работников. Мы не используем формулировку «превышение предельно допустимого уровня запыленности воздуха рабочей зоны приводит к повышению числа случаев заболеваний дыхательной системы работающих», так как подобный вывод можно сделать только при исключении влияния вмешивающихся факторов – конфаундеров (например, учет различного числа курильщиков в группах наблюдения), и, безусловно, при существова-нии подтвержденной патофизиологической связи между фактором и исходом.

Для применения критерия χ2 необходимо соблюдение следующих условий [6, 21, 28]:

  1. Включение в анализ только качественных (номинальных или порядковых) данных (возможно создание порядковых категорий из непрерывных данных).
  2. Использование только абсолютных фактических и ожидаемых частот (доли и частоты для расчетов не используются).
  3. Наблюдения должны быть независимы друг от друга (отбор участников исследования из генеральной совокупности должен производиться независимо друг от друга).
  4. Сравниваемые группы должны быть также независимы друг от друга (критерий не может быть использован в случае исследований типа «до – после»).
  5. Ожидаемое (не фактическое) число наблюдений в любой из ячеек таблицы должно быть не менее 5 или 10 (для четырехпольных таблиц).
  6. Доля ячеек таблицы с ожидаемым числом наблюдений менее 5 не должна превышать 20% (для многопольных таблиц).

Вычисляемое значение критерия χ2 представляет собой не непрерывный ряд значений, а изменяется скачкообразно, так как основывается на частотах, которые являются целыми числами, в то время как табличные значения критического значения критерия основаны на непрерывной шкале. Для компенсации данного несоответствия может быть использована поправка на непрерывность (поправка Йейтса), которая применяется только в случае четырехпольных таблиц [39, 43]. Поправка Йейтса рассчитывается по формуле:

где | O - E | – абсолютное значение (модуль) разности O и E (фактического и ожидаемого чисел в ячейке таблицы).

Следует учесть, что учеными обсуждается целесообразность применения данной поправки [6]. Практически во всех русскоязычных пособиях по статистике сообщается о целесообразности применения данной поправки либо всегда, либо при небольшом объеме выборки и в случае, когда  количество ожидаемых наблюдений в любой из ячеек таблицы сопряженности меньше 5 (или меньше 5). Ряд англоязычных пособий по статистике, напротив, не рекомендует применять данную поправку ввиду ее излишней консервативности, то есть высокой вероятности не обнаружить различия там, где они есть на самом деле.

В настоящее время считается, что поправку Йейтся целесообразно использовать при количестве ожидаемых наблюдений в любой из ячеек четырехпольной таблицы сопряженности меньше 5 (или 10) и необходимости консервативного подхода к результатам исследования. Значения критерия χ2 при использовании поправки Йейтса существенно отличаются значения χ2 без ее использования при малых выборках, в то время как большой объем выборки нивелирует влияние данной поправки.

Рассчитаем поправку Йейтса для нашего случая гипотетического исследования:

χ2 = (|28 - 21| - 0,5)/ 21 + (|66 - 73| - 0,5)/ 73 + (|16 - 23| - 0,5)/ 23 + (|87 - 80| - 0,5)/ 80 = 4,956

Полученное значение критерия χ2 с поправкой Йейтса также превышает критическое значение критерия χ2, равное 3,841, то есть и в данном случае нулевая гипотеза об отсутствии различий может быть отвергнута (χ2 = 3,841; df = 1; р < 0,05).

Следующим альтернативным способом расчета критерия χ2 является поправка на правдоподобие, которая вычисляется по формуле [6, 21]:


Поправка на правдоподобие, как и поправка Йейтса, более консервативна, чем критерий χ2, что особенно выражено при небольшом объеме выборки.

Рассчитаем значение критерия χ2 с поправкой на правдоподобие для нашего примера:

Λχ2 = 2 × [(28 × ln (28 / 21) + 66 × ln (66 / 73) + 16 × ln (16 / 23) + 87 × ln (87 / 80)] = 5,788

 

И в данном случае полученное значение критерия χ2 с поправкой на правдоподобие также превышает критическое значение критерия χ2, равное 3,841, то есть и в данном случае нулевая гипотеза об отсутствии различий может быть отвергнута (Λχ2 = 5,788; df = 1; р < 0,05).

Существует также способ точного расчета вероятности нулевой гипотезы об отсутствии взаимосвязи между фактором и исходом, который назван точным критерием Фишера [6, 21].

Согласно данному критерию, вероятность распределения чисел по ячейкам таблицы так, как было получено в результате исследования, в случае если была бы верна нулевая гипотеза об отсутствии взаимосвязи между фактором и исходом, вычисляется по формуле (для четырехпольной таблицы):

где N – общее количество наблюдений,  

а знак «!» – факториал, который равен произведению числа на последовательность чисел, каждое из которых на 1 меньше предыдущего (например, 6! = 6 × 5 × 4 × 3 × 2 × 1 = 720).

Рассчитаем значение точного критерия Фишера для нашего примера:

P = (94! × 103! × 44! × 153!) / (28! × 66! × 16! × 87! × 197!) = 0,013

Таким образом, мы можем отвергнуть нулевую гипотезу об отсутствии связи между фактором и исходом с вероятностью p = 0,013 (при критическом уровне p = 0,05). То есть вероятность того, что утверждение «превышение предельно допустимого уровня запыленности воздуха рабочей зоны ассоциировано с повышением числа случаев заболеваний дыхательной системы работников» окажется ошибочным, составляет всего 1,3% (при допустимой вероятности ошибки не более 5%).

Большинство специалистов придерживают-ся мнения, что точный критерий Фишера следует применять при ожидаемом количестве наблюдений менее 5 (или менее 10) в любой из ячеек четырехпольной таблицы. Следует отметить, что данный критерий может оказаться излишне консервативным в случае небольшого объема выборки [6].

Проблема с интерпретацией полученных результатов данных критериев может возникнуть в том случае, когда значение критерия χ2 говорит о том, что нулевая гипотеза отвергается (p < 0,05), а более консервативные поправки не позволяют ее отвергнуть (p ≥ 0,05). Такие ситуации могут возникать достаточно часто и наглядно демонстрируют неконструктивность «дихотомического» подхода к интерпретации значения уровня статистической значимости, когда при любом значении p, даже незначительно превышающем 0,05, исследователь делает безальтернативный вывод об отсутствии статистических различий. Поэтому необходимо взвешенно подходить к интерпретации результатов статистической обработки исследования и обязательно приводить значение достигнутого уровня статистической значимости до третьего знака после запятой во всех случаях, когда это возможно.

Но все же, как тогда поступать в случаях неоднозначной трактовки достигнутого уровня статистической значимости, полученного при использовании различных статистических методов (когда рассчитанное значение p незначительно превышает критическое)? На этот вопрос нет однозначного ответа, но можно посоветовать увеличить объем выборки (набрать больше наблюдений в исследование), или попытаться объединить группы наблюдений (если количество сравниваемых групп больше 2), если это не противоречит дизайну исследования.

Итак, мы рассмотрели случаи расчета статистических критериев, используемых при анализе четырехпольных таблиц. Но в ходе исследований часто приходится оценивать факторы и исходы, которые могут иметь больше двух альтернативных значений. Примером может служить таблица сопряженности 2×3, в которой фактором является вариант генотипа (3 варианта фактора: доминантная гомозигота, гетерозигота или рецессивная гомозигота), а исходом – развитие фенотипического признака, например, определенного заболевания (2 варианта исхода: признак проявился или не проявился). Примером многопольной таблицы 4×3 является таблица сопряженности, в которой фактором является градация изменения массы тела (нормальная масса тела, избыточная масса тела или ожирение – порядковый признак), а исходом – функциональный класс стенокардии напряжения по NYHA (также порядковый признак – I, II, III или IV степень). В процессе анализа многопольных таблиц следует использовать критерий χ2, а в случае, если доля ячеек с ожидаемым числом наблюдений менее 5 превышает 20%, потребуется использовать точный критерий Фишера. Анализ многопольной таблицы сопряженности, включающей порядковые (ординальные) переменные, также может проводиться с использованием специальных методов анализа связи между переменными, в том числе с помощью коэффициента корреляции Кендалла (τ), который представлен в ряде источников [7, 9] и будет подробно описан в следующей статье настоящей серии публикаций, посвященной корреляционному анализу.

Вернемся к нашему гипотетическому исследованию. Итак, с помощью расчета критерия χ2 и его альтернативных вариантов, мы статистически подтвердили тот факт, что  превышение предельно допустимого уровня запыленности воздуха рабочей зоны ассоциировано с повышением числа случаев заболеваний дыхательной системы работающих.

С практической точки зрения важным представляется не только подтверждение (или опровержение) факта наличия взаимосвязи между анализируемыми качественными признаками, но и оценка степени этой связи (величины эффекта).

Для этого могут использоваться различные методы, основные из которых представлены в таблице 4 [6, 21, 42].

Первые четыре представленных в таблице критерия, оценивающих силу связи между номинальными переменными, могут принимать значения от 0 до 1. Значения критериев φ и Крамера интерпретируются согласно таблице 5. [6, 21].

 

 

Таблица 5.

Интерпретация значений критериев φ и V Крамера согласно рекомендациям Rea и Parker.

Значение критериев

φ или V Крамера

Сила взаимосвязи

<0,1

Несущественная

0,1 – <0,2

Слабая

0,2 – <0,4

Средняя

0,4 – <0,6

Относительно сильная

0,6 – <0,8

Сильная

0,8 –1,0

Очень сильная

 

 

Несколько иную интерпретацию имеет критерий λ Гудмена-Краскела: его значение, равное нулю, означает, что наличие информации о независимой переменной никак не улучшает возможности прогнозирования значений зависимой переменной, значение, близкое к 1, говорит о высокой точности прогнозирования значения зависимой номинальной переменной на основании значения независимой переменной.

В случае, если в многопольной таблице представлены порядковые переменные, целесообразно провести более глубокий анализ связи между фактором и исходом, с использованием критерия Кендалла (τ).

Если рассчитать значения данных критериев для нашего примера, то значения критерия φ, критерия Крамера, коэффициента сопряженности Пирсона (обоих вариантов) и критерия Чупрова будут равны друг другу (их значение составит 0,17, что говорит о слабой связи между фактором и исходом). Это неудивительно, так как мы рассматриваем простейший вариант – четырехпольную таблицу, а различия в значения критериев появляются при анализе многопольных таблиц сопряженности.

Итак, мы рассмотрели математические способы оценки связи между фактором и исходом, но гораздо большую практическую ценность представляют количественные показатели, которые позволяют оценить вероятность возникновения того или иного исхода в зависимости от наличия или отсутствия фактора риска. Данными показателями являются относительный риск (relative risk – RR) и отношение шансов (odds ratio – OR) [12, 11, 34, 25]. Оба показателя рассчитываются только для четырехпольных таблиц (заметим, что любую многопольную таблицу можно превратить в четырехпольную путем объединения строк и/или столбцов, если это не противоречит цели и дизайну исследования).

Следует обратить внимание на то, что именно на данном этапе анализа данных проявляется тесная связь дизайна эпидемиологического исследования и статистического анализа полученных результатов.

В случае когортного исследования проводится наблюдение за когортой пациентов (или здоровых лиц) и регистрируется частота развития интересующего исследователя исхода в основной и контрольной группах с течением времени. В этом случае правомерно говорить об относительном риске, так как оценивается риск развития исхода в сравниваемых группах.

Относительный риск рассчитывается как отношение риска развития заболевания в группе лиц, на которую действовал фактор, к риску развития заболевания в группе лиц, не подвергавшихся действию фактора.

Относительный риск рассчитывается по формуле (см. таблицу 2):

RR =

A / (A + B)

C / (C + D)

Относительный риск демонстрирует, во сколько раз действие фактора увеличивает вероятность развития исхода. Значение отношения рисков, равное 1, говорит о том, что изучаемый фактор не оказывает влияние на развитие исхода, а если относительный риск больше 1, то можно сделать вывод о том, что действие изучаемого фактора увеличивает вероятность развития исхода (например, заболевания), и чем больше значение относительного риска, тем выше вероятность его развития. Если же относительный риск меньше 1, то фактор, наоборот, снижает вероятность развития исхода.

В нашем примере данные были собраны в результате когортного исследования, поэтому следует рассчитать относительный риск по формуле, приведенной выше (таблица 3):

 

RR =

28 / (28 + 66)

= 1,92

16 / (16 + 87)

 

Но точеная оценка относительного риска, как и частот и долей, не имеет существенной практической ценности, поэтому рассчитаем 95% ДИ для полученного значения с использованием следующих формул [6, 21]:

где ln – натуральный логарифм, e – основание натурального логарифма (≈ 2,718).

 

 

В нашем случае, после использования вышеприведенных формул, результаты расчета относительного риска следует представлять следующим образом: превышение предельно допустимого уровня запыленности воздуха рабочей зоны повышает риск развития заболеваний дыхательной системы у работников  в 1,92 раза (95% ДИ: 1,11-3,31). Разумеется, такая формулировка правомерна только в случае исключения влияния конфаундеров на результаты исследования.

В случае исследований «случай-контроль» использование понятия риска неправомерно, так как данные собираются не путем наблюдения за исследуемой группой лиц или пациентов, а регистрируются на основании сведений о группе лиц, к которых развился исход (так называемые «случаи»), и специальным образом отобранной группы сравнения (так называемые «контроли»). В данном случае для количественной оценки степени влияния фактора на исход используется отношение шансов (шансы – это отношение вероятности того, что событие произойдет, к вероятности того, что данное событие не произойдет). В исследованиях «случай-контроль» оцениваются не шансы развития исхода или «не развития» исхода у лиц, подвергавшихся действию фактора, а наоборот, шансы быть или не быть подвергнутыми фактору при наличии изучаемого исхода. Отношение шансов показывает, во сколько раз шансы наступления исхода при наличии изучаемого фактора выше шансов исхода при отсутствии действия данного фактора.

Отношение шансов рассчитывается по формуле (см. таблицу 2):

 

OR =

A / B

C / D

 

Для нашего примера, если бы данные, представленные в таблице 3, были бы собраны в результате исследования «случай-контроль», мы бы рассчитали отношение шансов по формуле:

 

OR =

28 / 66

= 2,31

16 / 87

 

Но точеная оценка отношения шансов также не имеет существенной практической ценности, поэтому рассчитаем 95% ДИ для полученного значения отношения шансов с использованием формул [6, 21]:

После использования вышеприведенных формул, результаты расчета отношения шансов следует интерпретировать следующим образом: для работников, у которых развились заболевания дыхательной системы, шансы того, что они работают в условиях превышения предельно допустимого уровня запыленности воздуха рабочей зоны, в 2,31 раза (95% ДИ: 1,15-4,61) выше, чем шансы того, что они работают в условиях допустимого уровня запыленности.

Возможна ситуация, когда значение OR оказывается меньше 1, что говорит о том, что действие изучаемого фактора не вызывает, а, напротив, предотвращает развитие исхода. В таком случае для удобства восприятия рекомендовано представлять данные, альтернативным образом переформулировав ожидаемый исход, или взять обратное значение от рассчитанного отношения шансов (например, ORдля исхода = 0,35, тогда ORдля отсутствия исхода = 1/0,35 = 2,86). Также следует взять обратное значение от границ 95% ДИ, но при этом верхняя и нижняя границы ДИ поменяются местами.

Важно отметить, что расчет относительного риска и отношения шансов имеет практический смысл только в том случае, если отвергнута нулевая гипотеза, то есть статистически подтверждена связь между фактором и исходом. Если же попытаться рассчитать 95% ДИ в случае, когда принята нулевая статистическая гипотеза, он будет включать в себя значение 1, что говорит об отсутствии связи между фактором и исходом.

В случае применения отношения шансов к результатам проспективных когортных исследований, оно может достаточно точно отражать относительный риск при редких исходах (до 10%), в то время как в остальных случаях значение отношения шансов будет существенно превышать значение относительного риска, что может привести к неправильному толкованию результатов исследования. На рисунке 3 представлены одновременно и относительный риск, и отношение шансов для гипотетического проспективного когортного исследования, включающего 200 человек (по 100 человек в основной и контрольной группе), в результате которого в контрольной группе (не подвергавшейся воздействию фактора риска), заболевание развилось у 10% (0,10) лиц, и, соответственно, не развилось у 90% (0,90) лиц. На графике представлены относительный риск и отношение шансов для частоты развития заболевания в основной группе, равной 0,10, 0,15, 0,20 и далее по нарастающей до частоты, равной 0,90. Мы видим, что по мере увеличения частоты развития заболевания в основной группе наблюдается все большее удаление значения отношения шансов от значения относительного риска.

Помимо относительного риска, для количественного представления степени влияния фактора на исход используются и другие расчетные показатели, такие как число больных, которых необходимо лечить для предотвращения одного неблагоприятного исхода (number needed to treat – NNT), снижение относительного риска, снижение абсолютного риска, добавочный риск и другие, с которыми можно ознакомиться в соответствующей литературе по эпидемиологии [34, 25].

Мы рассмотрели способы анализа качественных переменных в независимых выборках, но в исследованиях достаточно часто приходится сравнивать данные парных (связанных) выборок. Примером таких исследований является наблюдение по типу «до – после», когда качественные признаки сравниваются на момент начала с моментом окончания действия изучаемого фактора: например, сравнение приверженности подростков к здоровому образу жизни (удовлетворительная приверженность / неудовлетворительная приверженность) до и после курса занятий в центре здоровья. 

Рис. 3. Связь относительного риска и отношения шансов

(проспективное когортное исследование, n = 200, C / (С + D) = 10%,

по оси абсцисс представлены различные значения отношения A / (+ B)).

 

 

Другим примером может служить исследование, в котором каждый из членов выборки одновременно подвергается действию двух факторов, действие которых сравнивается: например, оценка улучшения субъективного самочувствия пациентов (улучшение / отсутствие улучшения) при использовании двух схем симптоматической терапии, обе из которых в случайной очередности получает каждый участник исследования – аналог перекрестного исследования.

Для анализа связанных выборок с использованием дихотомических переменных применяется критерий Мак-Нимара [6, 21].

Приведем пример еще одного гипотетического исследования «до – после», направленного на оценку наличия изжоги до начала и после окончания курса комплексного лечения язвенной болезни.

Результаты обследования 66 пациентов представлены в виде таблицы (таблица 7). На момент начала терапии изжога беспокоила 58 пациентов и отсутствовала у 18 участников исследования.

 

 

Таблица 7.

Влияние курса лечения язвенной болезни на наличие у пациентов изжоги.

Наличие/отсутствие признака

После лечения

Отсутствие изжоги

Наличие изжоги

Всего

До лечения

Наличие изжоги

48 (А)

10 (B)

58 (A + B)

Отсутствие изжоги

12 (C)

6 (D)

18 (C + D)

Всего

60 (A + C)

16 (B + D)

54 (N = A + D)

 

 

Заметим, что в случае сравнения частот в исследовании типа «до – после» требуется рассмотрение в динамике каждого наблюдения по-отдельности.

Итак, в таблице представлено, что после курса лечения изжога перестала беспокоить 48 пациентов из общего количества пациентов, которых она беспокоила (58 человек), при этом она появилась у 6 пациентов из тех, у которых изначально изжога не наблюдалась (18 человек). Также зафиксировано, что у 12 пациентов (из 18-ти) изжога отсутствовала как до, так и после лечения, а 10 пациентов (из 58-ми) изжога как беспокоила, так и продолжила беспокоить.

Мы можем сказать, что в нашей выборке исчезновение изжоги наблюдалось в 82,8% случаев, но при этом она появилась у 33,3% пациентов из числа тех, у которых изжога изначально отсутствовала. Рассмотрим, можно ли считать такой совокупный эффект лечения благоприятным с позиции результатов статистического анализа.

Итак, в клетке A представлено количество благоприятных исходов после воздействия фактора (исчезновение изжоги после курса лечения), а в клетке D – количество неблагоприятных исходов (после курса лечения изжоги, которой изначально не было). Для расчета критерия Мак-Нимара используются данные только в этих двух клетках и некое расчетное значение, равное сумме значений этих двух клеток (N = A + D). Заметим, что значения в клетках B и С, также как и общий объем выборки, при расчете критерия Мак-Нимара не используются.

Нулевая статистическая гипотеза в данном случае состоит в том, что доля наблюдений, у которых наблюдается благоприятная динамика признака, равна доле наблюдений, у которых динамика, напротив, имеет неблагоприятный характер.

Для проверки гипотезы в случае, когда N > 50 (сумма значений в ячейках A и D, но не объем выборки), рассчитывается значение χ2 по упрощенной формуле с числом степеней свободы, равным 1:

где | A – D | – абсолютное значение (модуль) разности значений соответствующих клеток (модуль разности), а единица вычитается с целью выполнения поправки на непрерывность.

Если рассчитанное значение критерия χ2 превосходит соответствующее табличное критическое значение, то нулевая гипотеза отклоняется.

Рассчитываем фактическое значение χ2:

Поскольку рассчитанное значение  критерия (31,13) значительно больше критического (3,84) [32, 5, 26], то нулевая гипотеза об отсутствии различий до и после курса лечения  отвергается на выбранном уровне значимости (p = 0,05). Таким образом, мы доказали, что предложенное комплексное лечение язвенной болезни статистически значимо уменьшает количество пациентов, страдающих изжогой.

Как уже было сказано выше, таблицы сопряженности могут включать качественные признаки, имеющие порядковую (орднальную) шкалу измерения. Так как порядковые переменные по своей сути являются упорядоченными определенным образом качественными переменными, данный факт дает больше информации о переменных и, соответственно, расширяет возможности их анализа по сравнению с номинальными данными.

Поскольку порядковые переменные упорядочены в определенном направлении (по возрастанию или по убыванию), в основе всех критериев, используемых для анализа таких данных, лежит расчет количества нарушений порядка их расположения [7].

Рассмотрим пример гипотетического исследования, направленного на оценку связи между категорией индекса массы тела (ИМТ) пациента (может быть представлена как порядковая переменная) и степени артериальной гипертензии (АГ). Результаты исследования представлены в таблице 8.

В представленной многопольной таблице сопряженности все строки и ряды расположены по возрастанию (от 1-го до последнего столбца и от 1-го до последнего ряда) и каждая из ячеек обозначена относительно ее положения по рядам (R) и столбцам (C).

 

 

Таблица 8.

Многопольная таблица сопряженности (3 × 2).

 

АГ I ст.

(уровень 1)

АГ II ст.

(уровень 2)

Аг III ст.

(уровень 3)

Всего

Нормальная масса тела

(уровень 1)

11

(R1C1)

6

(R1C2)

3

(R1C3)

20

(R1)

Избыточная масса тела

(уровень 2)

10

(R2C1)

13

(R2C2)

17

(R2C3)

40

(R2)

Всего

21

(C1)

19

(C2)

20

(C3)

60

(n)

Метка группы (уровня)

1

(w1)

2

(w2)

3

(w3)

 

 

 

Каждая ячейка таблицы сравнивается по своему положению с остальными, и все пары данных можно классифицировать как конкордантные, дискордантные и связанные либо по зависимой, либо по независимой переменной (конкордантные пары также называют проверсиями, а дискордантные – инверсиями).

Для начала рассмотрим пару ячеек R1C1 и R2C2. Для ячейки R2C2 номер как ряда, так и столбца выше, чем таковые для ячейки R1C1, что позволяет считать эту пару ячеек конкордантной (проверсия). Всего в ячейке R1C1 11 наблюдений, а в ячейке R2C2 – 13 наблюдений, значит в ячейках R1C1 и R2C2 содержится информация о 13 × 11 = 143 конкордантных парах индивидуальных наблюдений. Далее рассмотрим ячейки R1C2 и R2C1. В данном случае порядковый номер ряда для ячейки R1C2 меньше, чем для ячейки R2C1, а порядковый номер столбца – больше, что позволяет считать эту пару ячеек дискордантной (инверсия). Соответственно, общее число конкордантных пар индивидуальных наблюдений для этих ячеек составит 6 × 10 = 60 наблюдений. Примером пары, связанной по рядам, служат ячейки R1C1 и R1C2 (11 × 6 = 66 наблюдений), а примером пары, связанной по столбцам, служат ячейки  R1C1 и R2C1 (11 × 10 = 110 наблюдений).

Количество возможных пар ячеек (комбинаций между ячейками) можно рассчитать по формуле n  = 0,5 × N × (N - 1), где N – количество ячеек. Поскольку всего в представленной таблице 6 ячеек, количество возможных комбинаций равно 15-ти (таблица 9). Таким образом, всего в нашем примере выявлены 432 конкордантные пары наблюдений, 129 дискордантных пар и 877 связанных пар, из которых 638 связаны по рядам, а 239 связаны по столбцам.

 

 

 

 

 

 

Таблица 9.

Комбинации ячеек таблицы сопряженности (результат анализа таблицы 8).

Пары ячеек

Количество пар индивидуальных наблюдений

Расчет

Всего

Конкордантные пары

R1C1

R2C2

11х13

143

R1C1

R2C3

11х17

187

R1C2

R2C3

6х17

102

Всего:

432

Дискордантные пары

R2C1

R1C2

10х6

60

R2C1

R1C3

10х3

30

R2C2

R1C3

13х3

39

Всего:

129

Пары, связанные по рядам

R1C1

R1C2

11х6

66

R1C1

R1C3

11х3

33

R1C2

R1C3

6х3

18

R2C1

R2C2

10х13

130

R2C1

R2C3

10х17

170

R2C2

R2C3

13х17

221

Всего:

638

Пары, связанные по столбцам

R1C1

R2C1

11х10

110

R1C2

R2C2

6х13

78

R1C3

R2C3

3х17

51

Всего:

239

 

 

Основные критерии, которые могут быть использованы для анализа многопольных таблиц сопряженности с ординальными данными, представлены в таблице 10 [6, 21, 36, 40, 41].

 

 

Таблица 10.

Основные критерии, используемые для оценки силы связи между ординальными переменными.

Значение всех представленных критериев может варьировать от -1 до 1, причем 1 означает полную прямопропорциональную взаимосвязь между переменными, -1 – полную обратную взаимосвязь между переменными, а 0 – полное отсутствие какой-либо связи между изучаемыми признаками (соответственно, чем ближе значение критерия к 1 или -1, тем взаимосвязь между переменными сильнее).

Для нашего примера (таблица 8), γ = 0,540, τb = 0,309, τс = 0,337, d = 0,379, что говорит о наличии существенной связи между переменными.

Для анализа таблиц с ординальными данными может также быть использован критерий χ2 для линейного тренда [7, 40]. Следует отметить, что критерий χ2 для линейного тренда, в отличие от классического критерия χ2 Пирсона, менее чувствителен к ситуациям, когда ожидаемое количество наблюдений в некоторых ячейках мало.

С помощью критерий χ2 для линейного тренда можно оценить, имеется ли в пропорциях тренд возрастания уровня категории исхода при возрастании уровня категории фактора (увеличение степени АГ при увеличении категории ИМТ). Вычисляется он по формуле (см. таблицу 8):

где wi – метка группы, R1Ci – значения в ячейках первого ряда, R1 – сумма наблюдений в первом ряду таблицы, Сi – сумма наблюдений в соответствующем столбце таблицы.

В нашем примере значение критерия χ2 для линейного тренда составит 6,35.

Далее полученное значение сравним с критическим значением для (k - 1) числа степеней свободы (k – количество столбцов). Для нашей таблицы df = 3 – 1 = 2. Для числа степеней свободы, равной 2, и для уровня статистической значимости p < 0,05 критическое значение критерия χ2 равно 4,605 [32, 5, 26]. Так как полученное в результате расчетов значение критерия χ2 для линейного тренда превышает критическое, нулевая гипотеза об отсутствии связи между категорией ИМТ и степенью АГ у пациентов отвергается при критическом уровне значимости, равном 0,05 (χ2 = 6,35; df = 2; р < 0,05).

Разумеется, представленные выше способы анализа качественных данных не исчерпываются приведенными выше методами статистического анализа. Более подробно c методами обработки качественных переменных можно ознакомиться в специализированной литературе по статистике [5, 28, 6].

Для того, чтобы читатель приобрел практические навыки выполнения анализа качественных переменных, будет рассмотрен фрагмент данных, которые были собраны в ходе исследования, направленного на изучение метаболического синдрома и его детерминант в условиях неблагополучной социально-экологической ситуации в Южном Казахстане [22, 23, 27, 31].

В ходе данного исследования были получены значения ИМТ и сведения о виде трудовой деятельности пациентов, которая подразделялась на физический и умственный труд (дихотомическая переменная). ИМТ является непрерывной переменной, и в данном случае мы представили ее в виде дихотомической переменной, принимающей 2 значения: нормальная масса тела (ИМТ ≤ 25 кг/м2) и избыточная масса тела (ИМТ > 25 кг/м2).

Результаты данного исследования представлены в таблице 11.

 

 

Таблица 11.

Результаты гипотетического исследования (связь вида трудовой деятельности с ожирением).

 

Наличие ожидаемого исхода

Избыточная масса тела

Нормальная масса тела

Всего

Вид трудовой деятельности

Умственная

90

39

129

Физическая

155

28

183

Всего

255

67

312

 

 

Анализ качественных данных будет проведен с использованием программного обеспечения Statistica 10 [30, 3] и SPSS 20 [4], демонстрационные версии которого можно загрузить с официальных сайтов разработчиков (www.stаstsoft.com и www.ibm.com соответственно).

Представленные ниже алгоритмы действий являются не более чем инструментом анализа данных, в то время как корректная интерпретация полученных результатов требует наличия базисных знаний в области биомедицинской статистики, которые могут быть получены только путем изучения специализированной литературы [5, 2, 24, 26, 35].

Анализ качественных данных с использованием программы Statistica 10

К сожалению, программа Statistica 10 не может быть рекомендована начинающему исследователю для выполнения различных методов анализа качественных данных по причине достаточно сложного и неудобного интерфейса обработки таблиц сопряженности. Поэтому мы рассмотрим только базовые расчеты некоторых критериев на основании таблиц 2×2. В случае, если читатель заинтересуется детализированным алгоритмом анализа качественных данных в программе Statistica 10, с ним можно ознакомиться в соответствующей литературе [30, 3].

Для того, чтобы внести анализируемые данные в таблицу 2×2, откроем программу и с помощью меню «File» в верхней части экрана создадим новый файл, выбрав раздел «New» (в появившемся окне «Create new document» нажмем «OK»).

Рис. 4. Окно «Nonparametric Statistics» программы Statistica 10.

 

Далее выберем меню «Statistics», раздел «Nonparametrics», после чего в открывшемся окне (рисунок 4) выберем раздел «2×2 Tables…» и нажмем кнопку «OK». Программа откроет форму таблицы сопряженности 2×2 для заполнения. Внесем в нее данные в соответствие с таблицей 11 (рисунок 5).

Нажатие на кнопку «Summary» откроет окно результатов (рисунок 6).

 

 

 

Рис. 5. Окно «2×2 Tables» программы Statistica 10 (ввод данных для расчета критерия χ2).

 

Рис. 6. Окно результатов расчета  критерия χ2 программой Statistica 10.

 

 

В таблице, представленной на рисунке 6, в первых 6-ти строках и 3-х столбцах представлена таблица сопряженности, соответствующая таблице 11. Основные результаты расчетов представлены в следующих строках:

-          срока «Chi-square (df=1)» представляет значение критерия χ2 (10,00) и его уровень статистической значимости (p = 0,0016);

-          строка «Yates correction Chi-square» представляет поправку Йейтса и  уровень статистической значимости (χ2 = 9,14; p = 0,0025);

-          строка «Fisher exact p», «two  tailed» – значение точного критерия Фишера (p = 0,0013).

Данный раздел программы не позволяет рассчитывать ожидаемые числа в ячейках таблицы, но это можно сделать самостоятельно и убедиться в том, что ожидаемое число наблюдений в любой из ячеек таблицы превышает 5, поэтому правомерно использовать результаты, представленные в строке  «Chi-square (df=1)».

Таким образом, мы выяснили, что наличие избыточной массы тела ассоциировано с видом трудовой деятельности пациента. Остается открытым вопрос, каким именно образом они ассоциированы. Так как данное исследование является поперечным и в ходе исследования собирались данные о настоящем заболевании (избыточная масса тела) и об имевших место действующих в прошлом (вид трудовой деятельности), по методологии проведения оно сходно с исследованием «случай-контроль», и практически значимой мерой эффекта является отношение шансов.

Для представленного случая отношение шансов рассчитывается по формуле (см. таблицу 11):

OR =

90 / 39

= 0,42

155 / 28

Нижняя и верхняя границы 95% ДИ для OR, рассчитанные по вышеприведенным формулам, равны 0,24 и 0,72 соответственно.

Так как значение OR < 1, это означает, что действие фактора (в нашем случае умственного труда, соответствующего в первой строке таблицы сопряженности) уменьшает вероятность появления исхода (в нашем случае ожирения, соответствующего первому столбцу таблицы сопряженности).

Однако такое значение OR трудно для восприятия, поэтому сделаем его более удобным, вычислив обратные значения отношения шансов по формуле OR = 1 / OR, как для самого значения, так и для границ 95% ДИ.

Итак, после математического преобразования результат исследования будет сформулирован следующим образом: занятие физическим трудом повышает шансы наличия избыточной массы тела в 2,4 раза (95% ДИ: 1,4-4,2).

Результаты исследования парадоксальны – занятия физическим трудом, казалось бы, требуют больше энергозатрат по сравнению с умственным трудом, и по этой причине ожирение в группе лиц, занимающихся физической работой, должно встречаться реже. Но данный подход, несмотря на очевидность¸ не является корректным, так как не учитывает множество вмешивающихся факторов (конфаундеров), таких как уровень дохода, занятия спортом, особенности пищевых предпочтений, приверженность к здоровому образу жизни и другие. Поэтому при игнорировании влияния конфаундеров выводы по результатам исследования могут оказаться некорректными.

Далее с помощью программы Statistica 10 рассчитаем значение критерия Мак-Нимара. Воспользуемся для этой цели таблицей 7, повторив ручные расчеты программным способом. Итак, вернемся к окну анализа, нажав на соответствующую вкладку «2 × 2 Tables:..» в нижней левой части рабочего поля программы, и в окне «2×2 Tables» ведем данные согласно таблице 7 (рисунок 7), после чего нажмем кнопку «Summary».

 

 

Рис. 7. Окно «2×2 Tables» программы Statistica 10 (ввод данных для расчета критерия Мак-Нимара).

 

Результаты расчета критерия Мак-Нимара следует считывать по строке «McNemar Chi-square (A/D)»: значение критерия составляет 31,13, уровень статистической значимости p < 0,0001, что соответствует результатам приведенных выше ручных расчетов значения критерия.

В программе SPSS 20 функциональные возможности для работы с качественными данными реализованы гораздо удобнее с позиции начинающего исследователя, по сравнению с программой Statistica 10.

Для начала работы необходимо открыть файл 6_Categorical_SPSS.sav, который потребуется загрузить с сайта журнала «Наука и Здравоохранение». В файле в первых 3-х строках данные представлены в следующем виде (рисунок 9):

-     В столбце «Activity» представлены 2 альтернативных варианта значений: значению «1» соответствует умственный труд («Brainwork»), значению «2» – физический труд («Physical»).

-          В столбце «BMI» также представлены 2 альтернативных варианта значений: значению «1» соответствует избыточная масса тела («Overweight»), значению «2» – нормальная масса тела («Normal weight»).

-          В столбце «Sum_of_cases» представлено количество пациентов, соответствующее определенным сочетанием значений в столбцах «Activity» и «BMI»  (например, в третьей строке указано количество пациентов, которые занимаются физическим трудом и имеют избыточную массу тела, равное 155).

Данные, представленные в оставшихся 3-х столбцах, будут использованы позже для расчета критерия Мак-Нимара.

Рис. 8. Окно результатов расчета  критерия Мак-Нимара программой Statistica 10.

 Анализ качественных данных с использованием программы SPSS 20

 

 Рис. 9. Представление результатов исследования в файле SPSS 20.

Для обработки представленных данных, прежде всего, необходимо «взвесить» наблюдения, то есть указать программе, что в столбце «Sum_of_cases» указаны значения, соотнесенные с первым и вторым столбцами (в противном случае программа будет считать, что в файле представлены данные только по четырем наблюдениям).

Для этого войдем в меню «Data» и выберем раздел «Weight cases» («взвесить наблюдения»), как показано на рисунке 10.

Рис. 10. Выбор раздела «Weightcases» меню «Data» программы SPSS 20.

 

Программа откроет окно «Weight cases», в котором отметим позицию «Weight cases by» и с помощью стрелки перенесем в правое поле переменную «Sum_of_cases» (рисунок 11), подтвердив выбор кнопкой «OK». В результате выполненных манипуляций программа будет считать значения в столбце «Sum_of_cases» соответствующим значениям в остальных столбцах.

Далее откроем меню «Analyze», раздел «Descriptive Statistics», подраздел «Crosstabs…» (рисунок 12).

 

 

Рис. 11. Окно «Weightcases» программы SPSS 20 (выбор переменной «Sum_of_cases»).

Рис. 12. Выборподраздела «Crosstabs…» раздела «Descriptive Statistics»

меню «Analyze» программы SPSS 20.

 

В открывшемся окне, прежде всего, перене-сём переменную «Activity» в поле «Row(s)» (ряд), а переменную «BMI» в поле «Column(s)» (столбцы), как показано на рисунке 13.

  

Рис. 13. Окно «Crosstabs» программы SPSS 20.

 

Далее нажмем на кнопку «Statistics» и в появившемся окне отметим позиции «Chi-square», «Contingency Coefficient» (коэффи-циент сопряженности Пирсона), «Phi and Cramers V», «Lambda» (λ-критерий Гудмана-Краскела), «Risk» (вывод результатов расчета относительного риска и отношения шансов), а также группу критериев, предназначенных для анализа порядковых данных – «Gamma» (γ-критерий Гудмена-Краскела), «Somers d», «Kendalls tau-b» и «Kendalls tau-с», после чего нажмем кнопку «Continue» (рисунок 14).

Рис. 14. Окно «Crosstabs: Statistics» программы SPSS 20.

 

Далее в окне «Crosstabs» нажмем на кнопку «Cells», и в окне «Crosstabs: Cell Display» отметим позиции «Observed» и «Expected» для вывода фактических и ожидаемых значений в ячейках, и позиции «Row», «Column» и «Total» для вывода процентной доли количества наблюдений в ячейках по строкам и столбцам, после чего подтвердим выбор кнопкой «Continue».

Программа вернется к окну «Crosstabs» (рисунок 13), в котором нажмем кнопку «OK» для начала расчетов.

Программа представит результаты расчетов в виде нескольких таблиц.

В таблице 12 представлена таблица сопряженности, в которой рассчитаны маргинальные итоги и процентный вклад каждой ячейки (соответствует значениям, приведенным в таблице 11).

Таблица 12.

Таблица сопряженности качественных переменных «Activity» и «BMI».

 

BMI

Total

Overweight

Normal weight

Activity

Brainwork

Count

90

39

129

Expected Count

101,3

27,7

129,0

% within Activity

69,8%

30,2%

100,0%

% within BMI

36,7%

58,2%

41,3%

% of Total

28,8%

12,5%

41,3%

Physical

Count

155

28

183

Expected Count

143,7

39,3

183,0

% within Activity

84,7%

15,3%

100,0%

% within BMI

63,3%

41,8%

58,7%

% of Total

49,7%

9,0%

58,7%

Total

Count

245

67

312

Expected Count

245,0

67,0

312,0

% within Activity

78,5%

21,5%

100,0%

% within BMI

100,0%

100,0%

100,0%

% of Total

78,5%

21,5%

100,0%

 

 

 

В таблице 13 представлены результаты расчета критерия χ2 и его альтернативных вариантов.

В строке «Pearson Chi-Square» в столбце «Value» приведено значение критерия χ2 Пирсона (10,004), в столбце «df» – число степеней свободы (1), в столбце «Asymp. Sig. (2-sided)» – уровень статистической значимости (0,002).

В строке «Continuity Correction» аналогичным образом представлены результаты расчета поправки Йейтса на непрерывность, в строке «Likelihood Ratio» – результаты применения критерия χс поправкой на правдоподобие.

Строка «Fishers Exact Test» в столбце «Exact Sig. (2-sided)» представляет результаты расчета точного критерия Фишера.

Строка «Linear-by-Linear Association» представляет результаты расчета критерия χдля линейного тренда, что было бы важно, если бы изучали порядковые переменные. Тем не менее, любая дихотомическая переменная может быть представлена как порядковая, имеющая 2 уровня значений. И в нашем случае значение критерия χдля линейного тренда статистически значимо (χ2 = 9,972; df = 1; p = 0,002), хотя практическая интерпретация данного результата затруднительна (данный критерий обычно рассчитывают для много-польных таблиц с порядковыми данными).

В представленной таблице под сноской «a» программа сообщает, что ни в одной из клеток анализируемой таблицы сопряженности нет значения меньше 5 (это важно для корректно-го выбора альтернативных вариантов расчета критерия χ2).

 

 

Таблица 13.

Результаты расчета критерия χ2 и его альтернативных вариантов.

 

Value

df

Asymp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)

Pearson Chi-Square

10,004a

1

,002

 

 

Continuity Correctionb

9,139

1

,003

 

 

Likelihood Ratio

9,874

1

,002

 

 

Fishers Exact Test

 

 

 

,002

,001

Linear-by-Linear Association

9,972

1

,002

 

 

N of Valid Cases

312

 

 

 

 

a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 27,70.

b. Computed only for a 2x2 table

 

 

В следующих двух таблицах представлены результаты расчета критериев, предназначен-ных для математической оценки силы связи между фактором и исходом (Таблица 14 и Таблица 15). В обеих таблицах проведено разделение критериев, предназначенных для оценки силы связи для номинальных переменных («Nominal by Nominal») и порядковых переменных («Ordinal by Ordinal»). Все значения критериев программа представляет в столбце «Value».

 

 

Таблица 14.

Результаты расчета критериев, предназначенных для математической оценки силы связи между фактором и исходом (I).

 

Value

Asymp. Std. Errora

Approx. Tb

Approx. Sig.

Nominal by Nominal

Lambda

Symmetric

,056

,040

1,348

,178

Activity Dependent

,085

,061

1,348

,178

BMI Dependent

,000

,000

.c

.c

Goodman and Kruskal tau

Activity Dependent

,032

,020

 

,002d

BMI Dependent

,032

,020

 

,002d

Ordinal by Ordinal

Somers d

Symmetric

-,176

,056

-3,079

,002

Activity Dependent

-,215

,068

-3,079

,002

BMI Dependent

-,149

,048

-3,079

,002

Таблица 15.

Результаты расчета критериев, предназначенных для математической оценки силы связи между фактором и исходом (II).

 

Value

Asymp. Std. Errora

Approx. Tb

Approx. Sig.

Nominal by Nominal

Phi

-,179

 

 

,002

Cramers V

,179

 

 

,002

Contingency Coefficient

,176

 

 

,002

Ordinal by Ordinal

Kendalls tau-b

-,179

,057

-3,079

,002

Kendalls tau-c

-,145

,047

-3,079

,002

Gamma

-,412

,117

-3,079

,002

N of Valid Cases

312

 

 

 

 

 

В таблице 14 значение λ-критерий Гудмана-Краскела («Lambda») следует читать по строке «Symmetric», а значение критерия Сомера необходимо оценивать исходя из того, какая переменная является исходом (в нашем случае зависимой переменной является «BMI», и поэтому значение критерия d = -0,149).

Программа также представляет уровень статистической значимости для каждого критерия, но его значение не играет существенной роли.

Последняя таблица представляет наибольшую практическую ценность, так как дает информацию об относительном риске и отношении шансов (таблица 16).

 

 

Таблица 16.

Результаты расчета отношения шансов и относительного риска.

 

Value

95% Confidence Interval

Lower

Upper

Odds Ratio for Activity (Brainwork / Physical)

,417

,240

,723

For cohort BMI = Overweight

,824

,724

,937

For cohort BMI = Normal weight

1,976

1,285

3,038

N of Valid Cases

312

 

 

 

 

 

Мы видим, что отношение шансов и его 95% ДИ равны 0,417 (95% ДИ: 0,240-0,723). После вычисления обратной величины отношения шансов мы можем сказать, что: занятие физическим трудом повышает шансы наличия ожирения в 2,40 раза (95% ДИ: 1,38-4,17).

Если бы наше исследование было когортным исследованием, то мы бы использовали значение относительного риска, представленного в строке «For cohort BMI = Overweight» (интересующий нас исход – развитие избыточной массы тела): относительный риск развития избыточной массы тела у пациентов, занимающихся умственным трудом по сравнению с пациентами, занимающимися физическим трудом, составляет 0,82 (95% ДИ: 0,72-0,94), то есть занятие умственным трудом снижает риск развития избыточной массы тела.

Далее рассмотрим способ расчета критерия Мак-Нимара с использованием программы SPSS 20.

Для этого снова воспользуемся примером, приведенным в таблице 7. На рисунке 9 видно, что данные гипотетического исследования представлены в виде 3-х переменных: «Start_treatment» (начало лечения), «End_treatment» (конец лечения), и «Sum_patients», в которой указано количество пациентов, соответствующих двум первым столбцам. Переменные «Start_treatment» и «End_treatment» имеют 2 значения – «1» (изжога есть) и «1» – изжоги нет. Соответственно, количество пациентов, у которых на момент начала лечения изжога была (значение «1»), а на момент окончания прекратилась (значение «2»), указывается во второй строке (значение равно 48). По тому же принципу заполнены остальные 3 строки файла (рисунок 9).

Прежде чем рассчитывать значение критерия Мак-Нимара, потребуется снова «взвесить» наблюдения, но уже по другой переменной («Sum_patients»). Для этого снова войдем в меню «Data», раздел «Weight cases», нажмем на переменную «Sum_of_cases» и с помощью стрелки между полями перенесем ее обратно в левое поле, после чего не ее место с помощью той же стрелки внесем переменную «Sum_patients» (рисунок 15). Следует учесть, что если в дальнейшем при расчетах «взвешивание» наблюдений больше не требуется, необходимо в данном окне отметить позицию «Do not weight cases» (рисунок 15).

Для расчета критерия Мак-Нимара необходимо войти в меню «Analyze», раздел «Nonparametric Tests», подраздел «Legacy Dialogs», позиция «2 Related Samples» (рисунок 16).

Далее в открывшемся окне «Two-Related-Samples Tests» отметим только позицию «МсNemar», после чего с помощью стрелки между полями последовательно перенесем переменные «Start_treatment» и «End_treatment» в правое поле «Test Pairs», после чего нажмем кнопку «OK» для начала расчетов (рисунок 17).

Рис. 15. Окно «Weightcases» программы SPSS 20 (выбор переменной «Sum_patients»).

 

 

Программа представит результаты в виде двух таблиц. Таблица 17 соответствует таблице 7 с единственным отличием в том, что столбцы поменялись местами.

 

Таблица 17.

Результаты гипотетического исследования (влияние лечения на наличие изжоги у пациентов)

Start_treatment

End_treatment

Yes

No

Yes

10

48

No

6

12

 

В таблице 18 представлены результаты расчета критерия Мак-Нимара, которые соответствуют результатам расчетов, проделанных ранее (строки «Chi-Square» и «Asymp. Sig.»).

 

Таблица 18.

Результаты расчета критерия Мак-Нимара в программе SPSS 20.

 

Start_treatmen

t &

End_treatment

N

76

Chi-Squareb

31,130

Asymp. Sig.

,000

 

 

Рис. 16. Выбор позиции «2 RelatedSamples» подраздела «LegacyDialogs» раздел «NonparametricTests» меню «Analyze» программы SPSS 20.

 

 

Рис. 17. Окно «Two-Related-Samples Tests» программы SPSS 20.

 

 

Литература:

  1. Аканов А.А., Турдалиева Б.С., Изекенова А.К., Рамазанова М.А., Абдраимова Э.Т., Гржибовский А.М. Оценка использования статистических методов в научных статьях медицинских журналов Казахстана // Экология человека. 2013. №5. С. 61-64.
  2. Банержи А. Медицинская статистика понятным языком: вводный курс. М. : Практическая медицина, 2007. 287 с.
  3. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: для профессионалов. СПб. : Питер, 2003. 688 с.
  4. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб. : ООО «ДиаСофтЮП», 2005. 608 с.
  5. Гланц С. Медико-биологическая статистика. М. : Практика, 1998. 459 с.
  6. Гржибовский А.М. Анализ номинальных данных (независимые наблюдения) // Экология человека. 2008. №6. С. 58-68.
  7. Гржибовский А.М. Анализ порядковых данных  // Экология человека. 2008. №8. С. 56-62.
  8. Гржибовский А.М. Доверительные интервалы для частот и долей // Экология человека. 2008. №5. С. 57-60.
  9. Гржибовский А.М. Корреляционный анализ // Экология человека. 2008. №9. С. 50-60.
  10. Гржибовский А.М. Типы данных, проверка распределения и описательная статистика // Экология человека. 2008. №1. С. 52-58.
  11. Гржибовский А.М., Иванов С.В. Исследования типа «случай-контроль» в здравоохранении // Наука и Здравоохранение. 2015. № 4. С. 5-17
  12. Гржибовский А.М., Иванов С.В. Когортные исследования в здравоохранении/ / Наука и Здравоохранение. 2015. № 3. С. 5-16.
  13. Гржибовский А.М., Иванов С.В. Поперечные (одномоментные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 2. С. 5-18.
  14. Гржибовский А.М., Иванов С.В., Горбатова М.А. Описательная статистика с использованием пакетов статистических программ Statistica и SPSS: и проверка распределения // Наука и Здравоохранение. 2016. № 1. С. 7-23.
  15. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных двух независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 2. С. 5-28.
  16. Гржибовский А.М., Иванов С.В.Горбатова М.А. Сравнение количественных данных двух парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 3. С. 5-25.
  17. Гржибовский А.М., Иванов С.В.Горбатова М.А. Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 4. С. 5-37.
  18. Гржибовский А.М., Иванов С.В., Горбатова М.А. Сравнение количественных данных трех и более парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии // Наука и Здравоохранение. 2016. № 5. С. 5-29.
  19. Гржибовский А.М., Иванов С.В. Экологические (корреляционные) исследования в здравоохранении // Наука и Здравоохранение. 2015. № 5. С. 5-18.
  20. Гржибовский А.М., Иванов С.В. Экспериментальные исследования в здравоохранении // Наука и Здравоохранение. 2015. № 6. С. 5-17.
  21. Гржибовский А.М., Унгуряну Т.Н. Анализ категориальных данных с использованием пакета статистических программ SPSS. Учебное пособие. Туркестан, 2015. – 90 с.
  22. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Гржибовский А.М. Типы пищевого поведения и абдоминальное ожирение // Журн. Медицина. 2015. №4. С. 92-95.
  23. Жунисова М.Б., Шалхарова Ж.С., Шалхарова Ж.Н., Нускабаева Г.О., Садыкова К.Ж., Маденбай К.М., Гржибовский А.М. Психоэмоциональный стресс как предиктор типа пищевого поведения в Казахстане // Экология человека. 2015. №5. С. 36-45.
  24. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. СПб. : Фолиант, 2003. 428 с.
  25. Зуева Л.П, Яфаев Р.Х. Эпидемиология: учебник. СПб : ООО «Издательство Фолиант», 2008. 752 с.
  26. Лакин Г.Ф. Биометрия. М. : Высшая школа, 1990. 351 с.
  27. Маденбай К.М., Шалхарова Ж.С., Шалхарова Ж.Н., Жунисова М.Б., Садыкова К.Ж., Нускабаева Г.О., Гржибовский А.М. Оценка связи между площадью подкожной жировой ткани и показателями электронейромиографии // Экология человека. 2015. №7. С. 58-64.
  28. Петри А., Сэбин К. Наглядная статистика в медицине. М. : ГЭОТАР-Мед, 2003. 140 с.
  29. Рахыпбеков Т.К., Гржибовский А.М. К вопросу о необходимости повышения качества казахстанских научных публикаций для успешной интеграции в международное научное сообщество // Наука и Здравоохранение. 2015. №1. С. 5-11.
  30. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. М. : МедиаСфера, 2002. 312 с.
  31. Садыкова К.Ж., Шалхарова Ж.С., Нускабаева Г.О., Садыкова А.Д., Жунисова М.Б., Маденбай К.М., Гржибовский А.М. Распространенность анемии, ее социально-демографические детерминанты и возможная связь с метаболическим синдромом в г. Туркестан, Южный Казахстан // Экология человека. 2015. №8. С. 58-64.
  32. Статистический анализ эмпирических исследований [электронный ресурс]. URL: www.statexpert.org/articles/таблицы_критических_значений_статистических_критериев (дата обращения 10.10.2015).
  33. Субботина А.В., Гржибовский А.М. Описательная статистика и проверка нормальности распределения количественных данных // Экология человека. 2014. №2. С. 51-57.
  34. Флетчер Р. Клиническая эпидемиология. Основы доказательной медицины: пер. с англ. / Р. Флетчер, С. Флетчер, Э. Вагнер. М. : Медиа Сфера, 1998. 352 с.
  35. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. СПб :ВМедА, 2002. 266 с.
  36. Agresti A. Introduction to categorical data analysis. New York: John Wiley and Sons, 2007. 400 p.
  37. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.
  38. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.
  39. Haviland M.G. Yatess correction for continuity and the analysis of 2x2 contingency tables // Statistics in Medicine. 1990. Vol. 9. P. 363-367.
  40. Hildebrand D.K., Laing J.D., Rosenthal H. Analysis of ordinal data. Newbery Park: SAGE University Paper, 1977. 80 p.
  41. Liebetrau A.M. Measures of Association. Newbery Park: Sage Publications, 1983. 100 р.
  42. Wilkinson L. Statistical methods in psychology journals: guidelines and explanations // American Psychologist. 1999. Vol. 54. P. 594-604.
  43. Yates F. Contingency tables involving small numbers and the chi-square test // Supplement to the Journal of the Royal Statistical Society. 1934. Vol. 1. P. 222.

 

References:

  1. Akanov A.A., Turdalieva B.S., Izekenova A.K., Ramazanova M.A., Abdraimova, Grjibovski A.M. Otsenka ispolzovania statisticheskih metodov v nauchnih statyakh Kazakhstana [Assesment of use of statistical methods in scientific articles of the Kazakhstans medical journals]. Ekologiya cheloveka [Human Ecology]. 2013. No.5. pp. 61-64. [in Russian]
  2. Banerzhi A. Meditsinskaya statistika ponyatnym yazykom : vvodnyy kurs [Medical statistics in plain language : an introductory course ]. M. : Prakticheskaya meditsina, 2007. p. 287.  [in Russian]
  3. Borovikov V. STATISTICA. Iskusstvo analiza dannikh na kompyutere: dlya professionalov [STATISTICA. The art of data analysis using computer: for professionals]. SPb. : Piter, 2003. p. 688.
  4. Buhl A., Zofel P. SPSS: isskustvo obrabotki informatsii. Analiz statisticheskih daanikh i vosstanovlenie skritikh zakonomernostey [SPSS: the art of information analysis. Statistical data analysis and hidden regularities identification]. SPb. : OOO «DiaSoftUP», 2005. p. 608. [in Russian]
  5. Glants S. Mediko-biologicheskaya statistika [The biomedical statistics]. M. : Praktika, 1998. p. 459. [in Russian]
  6. Grjibovski A.M. Analiz nominalnikh dannikh [Analysis of nominal data]. Ekologiya cheloveka [Human Ecology]. 2008. No.6. pp. 56-68. [in Russian]
  7. Grjibovski A.M. Analiz poryadkovikh dannikh [Analysis of ordinal data]. Ekologiya cheloveka [Human Ecology]. 2008. No.8.  pp. 56-62. [in Russian]
  8. Grjibovski A.M. Doveritelnie interval dlya chastot i doley [Confidence intervals for proportions]. Ekologiya cheloveka [Human Ecology]. 2008. No.5. PP. 57-60. [in Russian]
  9. Grjibovski A.M. Korrelatcionniy analiz [Correlation analysis]. Ekologiya cheloveka [Human Ecology]. 2008. No.9. pp. 50-60. [in Russian]
  10. Grjibovski A.M. Tipy dannikh, proverka raspredeleniya I opisatelnaya statistika [Types of data, distribution estimation and descriptive statistics]. Ekologiya cheloveka [Human Ecology]. 2008. No.1. pp. 52-58. [in Russian].
  11. Grjibovski A.M., Ivanov S.V. Issledovaniya tipa sluchay-kontrol v zdravoohranenii [Case-control studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 4, рр. 5-17 [in Russian].
  12. Grjibovski A.M., Ivanov S.V. Kogortnie issledovaniya v zdravoohranenii [Cohort studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 3, pp. 5-16. [in Russian].
  13. Grjibovski A.M., Ivanov S.V. Poperechnie (odnomomentnie) issledovanoya v zdravoohranenii [Cross-sectional studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 2, pp. 5-18. [in Russian]
  14. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Opisatelnaya statistika s ispolzovaniyem paketov statisticheskikh programm Statistica i SPSS [Descriptive statistics using Statistica and SPSS software]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016, 1, pp. 7-23 [in Russian].
  15. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh dvukh nezavisimykh vyborok s ispolzovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing the quantitative data of two independent groups using the software Statistica and SPSS: parametric and nonparametric tests]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016, 2, pp.5-28 [in Russian].
  16. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh dvukh parnikh viborok s ispolzovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing the quantitative data of two dependent variations using the software Statistica and SPSS: parametric and nonparametric tests]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016, 3, pp. 5-25. [in Russian].
  17. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh trekh i boleye nezavisimykh vyborok s ispolzovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii [Comparing of the quantitative data of three or more independent samples using Statistica and SPSS software: parametric and nonparametric methods]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016. 4. pp. 5-37. [in Russian].
  18. Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Sravneniye kolichestvennykh dannykh trekh i boleye parnikh vyborok s ispolzovaniyem programmnogo obespecheniya Statistica i SPSS : parametricheskiye i neparametricheskiye kriterii  [Comparing of the quantitative data of three or more dependent samples using Statistica and SPSS software: parametric and nonparametric methods]. Nauka i Zdravoohranenie [Science & Healthcare]. 2016. 5. С. 5-29 [in Russian].
  19. Grjibovski A.M., Ivanov S.V. Ekologicheskiye (korrelyatsionnye) issledovaniya v zdravoohranenii [Ecological (correlational) studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 5, pp. 5-18. [in Russian].
  20. Grjibovski A.M., Ivanov S.V. Eksperimentalnie issledovaniya v zdravookhranenii [Experimental studies in health sciences]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015, 6, pp. 5-17. [in Russian].
  21. Grjibovski A.M., Unguryanu T.N. Analiz kategorialnikh dannikh s ispolzovaniem paketa ststisticheskih program SPSS [Categorical data analysis using SPSS software]. Turkestan, 2015, 90 p. [in Russian].
  22. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K. Zh., Madenbay K.M., Grjibovski A.M. Tipy pischevogo povedeniya i abdominalnoe ozhirenie [Eating behavior types and abdominal obesity]. Meditsina [Medicine]. 2015. 4. pp. 92-95. [in Russian].
  23. Zhunissova M.B., Shalkarova Zh.S., Shalkarova Zh. N., Nuskabayeva G.O., Sadykova K. Zh., Madenbay K.M., Grjibovski A.M. Psykhoemotsionalniy stress kak predictor tipa pischevogo povedeniya v Kazakhstane [Psychoemotional stress and eating behavior in Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. 5. pp. 36-45. [in Russian]
  24. Zaytsev V.M., Liflyandskiy V.G., Marinkin V.I. Prikladnaya meditsinskaya statistika [Applied medical statistics] . SPb. : Foliant , 2003. p. 428. [in russian]
  25. Zueva L.P, Yafaev R.H. Epidemiologiya: uchebnik [Epidemiology: the textbook]. SPb : OOO «Izdatelstvo Foliant», 2008. p. 752. [in Russian].
  26. Lakin G.F. Biometria [Biometrics]. M. : Viscshaya shkola. 1990. p. 351. [in Russian].
  27. Madenbay K.M., Shalkarova Zh.S., Shalkarova Zh. N., Zhunissova M.B., Sadykova K. Zh., Nuskabayeva G.O., Grjibovski A.M. Otsenka svyazi mezhdu ploshadyu podkojnoy jirovoy tkani I pokazatelyami electroneyromiografii [Assesment of the relationship between subcutaneous fat tissue an results of electromyoneurography]. Ekologiya cheloveka [Human Ecology]. 2015. 7. pp. 58-64. [in Russian].
  28. Petri A., Sebin K. Naglyadnaya statistika v meditsine [Demonstrative statistics in medicine]. M. : GEAOTAR-Med, 2003. p. 140. [in Russian].
  29. Rakhypbekov T.K., Grjibovski A.M. K voprosu o nedhodimosti povisheniya kachestva kazakhstanskih nauchih publicatsiy dlya uspeshnoy integratsii v mezhdunarodnoe nauchnoe soobschestvo [The need for improvement of the quality of Kazakhstani publications for successful integration in the international research community]. Nauka i Zdravoohranenie [Science & Healthcare]. 2015. 1. pp. 5-11 [in Russian].
  30. Rebrova O. Yu. Statisticheskiy analiz meditsinskih daanikh. Primenenie paketa prikladnikh program STATISTICA [Statistical analysis of medical data. Using of STATISTICA software]. M. : MediaSphera, 2002. p. 312 [in Russian].
  31. Sadykova K.Zh., Shalkharova Zh.S., Shalkharova Zh.N. Nuskabaeva G.O., Sadykova A.D., Zhunissova M.B., Madenbay K.M., Grjibovski A.M. Rasprostranennost anemii , yeye sotsialno - demograficheskiye determinanty i vozmozhnaya svyaz s metabolicheskim sindromom v g. Turkestan , Yuzhniy Kazakhstan [Prevalence of anemia, its socio-demographic determinants and potential association with metabolic syndrome in residents of Turkestan, Southern Kazakhstan]. Ekologiya cheloveka [Human Ecology]. 2015. 8. p. 58-64. [in Russian]
  32. Statistical analysis of empirical research [website] Available at: www.statexpert.org/articles/таблицы_критических_значений_статистических_критериев (Accesed 10 October 2015).
  33. Subbotina A.V., Grjibovski A.M. Opisatelnaya statistika I proverka normalnosti raspredeleniya kolichestvennih dannikh [Descriptive statistics and normality testing for quantitative data]. Ekologiya cheloveka [Human Ecology]. 2014. 2. pp. 51-57. [in Russian].
  34. Fletcher R. et al. Klinicheskaya epidemiologiya. Osnovy dokazatelnoi meditsiny [Clinical epidemiology. Basics of the evidence-based medicine] / R. Fletchtr, C. Fletcher, E. Vagner. M. : Media Sphere, 1998. 352 p. [in Russian].
  35. Yunkerov V.I., Grigoryev S.G. Matematiko-statisticheskaya obraboka daanikh meditsinskih issledovaniy [Mathematical and statistical analysis of medical research data]. SPb : VMedA, 2002. p. 266. [in Russian]
  36. Agresti A. Introduction to categorical data analysis. New York: John Wiley and Sons, 2007. 400 p.
  37. Beaglehole R., Bonita R. Basic epidemiology. World Health Organization, Geneva, 1993.
  38. Cleopas T.J. et al. Statistics Applied to Clinical Trials. 4th ed. Springer, 2009.
  39. Haviland M.G. Yatess correction for continuity and the analysis of 2x2 contingency tables. Statistics in Medicine. 1990. Vol. 9. P. 363-367.
  40. Hildebrand D.K., Laing J.D., Rosenthal H. Analysis of ordinal data. Newbery Park: SAGE University Paper, 1977. 80 p.
  41. Liebetrau A.M. Measures of Association. Newbery Park: Sage Publications, 1983. 100 р.
  42. Wilkinson L. Statistical methods in psychology journals: guidelines and explanations. American Psychologist. 1999. Vol. 54. p. 594-604.
  43. Yates F. Contingency tables involving small numbers and the chi-square test. Supplement to the Journal of the Royal Statistical Society. 1934. Vol. 1. p. 222.

 

 

 

 

 

Контактная информация:

Гржибовский Андрей Мечиславович – доктор медицины, магистр международного общественного здравоохранения, Старший советник Национального Института Общественного Здравоохранения, г. Осло, Норвегия; Заведующий ЦНИЛ СГМУ, г. Архангельск, Россия; Профессор Северо-Восточного Федерального Университета, г. Якутск, Россия; Профессор, Почетный доктор Международного Казахско-Турецкого Университета им. Х.А. Ясяви, г, Туркестан, Казахстан; Почетный профессор ГМУ г. Семей, Казахстан.

Почтовыйадрес: INFA, Nasjonalt folkehelseinstitutt, Postboks 4404 Nydalen, 0403 Oslo, Norway.

Email: Andrej.Grjibovski@gmail.com

Телефон: +4745268913 (Норвегия), +79214717053 (Россия), +77471262965 (Казахстан).

 

 

 

год: 2016 выпуск №6