Глава 4 Заключение II

Содержание: [Показать]

В этой главе вы узнаете, как вычислять риски и шансы, проводить регрессионный анализ и анализ времени до события (также известный как анализ выживаемости).

`. Мы можем либо указать переменные напрямую с помощью `$`, либо просто указать только имена переменных и указать data.frame, из которого они происходят, в аргументе `data =` ->F) `, оба основных эффекта` supp` и "доза" значимы (p = 0,0008936 и p

4.1 Риск и шансы

Для расчета рисков и разногласий мы будем использовать пакет epiR. Вы можете установить его с помощью install.packages ("epiR"), когда используете его впервые. Мы снова будем использовать набор данных NINDS в качестве примера.

Давайте вычислим шансы и риски для высокого значения шкалы инсульта NIH через 24 часа (STATUS24) в группах лечения и плацебо (TREATCD). Прежде всего, нам нужно рассчитать таблицу непредвиденных обстоятельств для двух переменных:

Затем мы можем передать эту таблицу функции epi.2by2 из пакета epiR:

В верхней части вы можете увидеть предоставленную нами таблицу непредвиденных обстоятельств. Для интерпретации вам необходимо сравнить строки с исходной таблицей непредвиденных обстоятельств. Затем вы можете видеть, что Exposed + - это группа плацебо, Exposed - это группа t-PA, Outcome + - это группа с высоким статусом, а Outcome - это группа с низким статусом. В двух крайних правых столбцах вы можете увидеть риск высокого статуса в разделе Риск Inc * и шансы высокого статуса в разделе Коэффициенты. Обратите внимание, что риск указан в процентах.

Вы можете видеть, что в группе плацебо 56,7% процентов пациентов имеют высокий статус, шансы иметь высокий статус по сравнению с низким статусом составляют 1,311 в этой группе, что означает, что в среднем есть 1,311 пациентов с высоким статусом. статус на человека с низким статусом. С другой стороны, в группе t-PA риск ниже на 45,7%, а вероятность иметь высокий статус в этой группе составляет всего 0,841.

Когда мы хотим сравнить две группы, мы можем взглянуть на таблицу под Точечными оценками и 95% доверительными интервалами. Здесь вы можете увидеть коэффициент риска Inc, равный 1,24, что означает, что риск высокого статуса увеличивается в 1,24 раза в группе плацебо по сравнению с группой t-PA. Отношение шансов говорит нам, что шансы в группе плацебо увеличиваются в 1,56 раза. Наконец, разницу в рисках можно найти в разделе «Риск Attrib *», что говорит нам о том, что риск на 11,04% выше в группе плацебо, чем в группе t-PA.

Вы можете проверить соответствующие доверительные интервалы, чтобы увидеть, есть ли значительная разница между группами. Для соотношений 95% -ные доверительные интервалы не должны включать 1, для разницы доверительный интервал не должен включать 0, чтобы указать значимый результат при уровне значимости 0,05. В нашем случае это верно для всех трех оценок.

4.2 Регрессия

Чтобы узнать о регрессии, вернемся к набору данных радужной оболочки, который мы использовали ранее:

Таблица 4.1: Первые 10 строк набора данных радужной оболочки. Чашелист. Длина Чашелист. Ширина Лепесток. Длина Лепесток.Ширина Разновидность
5.1 3.5 1.4 0,2 Setosa
4.9 3.0 1.4 0,2 Setosa
4,7 3.2 1.3 0,2 Setosa
4.6 3.1 1.5 0,2 Setosa
5.0 3,6 1.4 0,2 Setosa
5,4 3.9 1,7 0,4 Setosa
4.6 3,4 1.4 0,3 Setosa
5.0 3,4 1.5 0,2 Setosa
4.4 2,9 1.4 0,2 Setosa
4.9 3.1 1.5 0,1 Setosa

Этот data.frame содержит информацию о длине чашелистиков и лепестков 150 растений трех видов цветов: setosa , versicolor и virginica :

Вопрос, на который мы могли бы попытаться ответить, заключается в том, существует ли значительная разница между средней длиной чашелистиков этих трех видов. Давайте сначала рассмотрим средства описательно:

Как видите, между этими тремя средствами есть различия, но являются ли эти различия систематическими или случайными? На этот вопрос можно ответить, используя линейный регрессионный анализ, который основан на линейной модели, определяющей взаимосвязь между зависимой переменной и одной или несколькими независимыми переменными. В нашем случае мы принимаем длину чашелистика как зависимую переменную y, а вид - как независимую переменную x.

4.2.1 Модель линейной регрессии

В модели один вид выбран в качестве эталона для длины чашелистиков, а затем мы смотрим на различия в длине чашелистиков других видов по сравнению с этим эталоном. Для примера радужной оболочки модель будет:

\(Я_ \) и я_ \) - это так называемые индикаторные или фиктивные переменные. \(Я_ \) равно 1, когда растение принадлежит к разноцветному виду, и 0 в противном случае, \ (I_ \) равно 1, если растение принадлежит к виду virginica, и 0 в противном случае. Поскольку каждое растение принадлежит только к одному виду, максимум одна из индикаторных переменных может одновременно принимать значение 1.

Итак, вот как формулы фактически сокращаются для трех видов:

Отсюда относительно легко получить значение параметров:

  • \ (Y_ \) - длина чашелистика растения \ (i \)
  • \ (b_ \) - среднее значение для эталонной группы сетоса (этот параметр называется перехватом)
  • \ (b_ \) - это разница между средним значением versicolor и средним значением setosa
  • \ (b_ \) - разница между средним значением virginica и средним значением setosa
  • \ (\ epsilon_ \) - остаток, то есть разница между растением \ (i \) и средним значением его вида

4.2.2 Вычисление линейной регрессии

Чтобы вычислить эту регрессию, мы сначала указываем линейную модель с помощью функции lm () в R, а затем используем функцию summary () для этой модели. Для lm () мы используем ту же формулу, что и для t.test:

. Мы можем либо указать переменные напрямую с помощью $, либо просто указать только имена переменных и указать data.frame, из которого они происходят, в аргументе data =

Чтобы получить фактические результаты регрессионного анализа, мы используем функцию summary () в линейной модели:

Вывод можно интерпретировать следующим образом:

Таблица под Остатками дает вам представление о центральной тенденции и разбросе остатков \ (\ epsilon_ \).

Ниже вы видите таблицу коэффициентов, в которой вы можете найти значения для \ (b_ \) (5.006), \ (b_ \) (0,93) и \ (b_ \) (1.582) по оценке. Каждое из этих значений имеет собственное p-значение (при Pr (>| t |)), которое проверяет гипотезу о том, что соответствующий коэффициент равен 0. Поскольку \ (b_ \) и \ (b_ \) являются средними различиями между versicolor и viriginica и setosa , мы можем сделать вывод, что оба вида имеют значительно большую длину чашелистиков, чем контрольный вид setosa . Если бы эти значения p были>0,05, это означало бы, что не было доказательств различий между соответствующими видами и длиной щетинки чашелистника.

R-квадрат (\ (R ^ 2 \)) дает вам информацию о доле изменчивости длины чашелистника, которая может быть объяснена видами (\ (R ^ 2 = \ frac

дисперсия>\)). \ (R ^ 2 \) принимает значения от 0 (длина чашелистика вообще не может быть объяснена видом) и 1 (длина чашелистика зависит исключительно (= детерминированно)) от вида.

В последней строке выходных данных мы получаем F-статистику и p-значение, указывающие на значительную общую связь между длиной чашелистника и видами. Эти значения точно такие же, как если бы мы вычисляли ANOVA вместо регрессии.

Часто рекомендуется также посмотреть на доверительные интервалы ваших коэффициентов регрессии. В summary () эти интервалы не отображаются, но вы можете легко вычислить их с помощью функции confint ():

4.2.3 Множественная линейная регрессия

Регрессионный анализ может выходить далеко за рамки простой линейной регрессии, которую мы только что вычислили. Регрессия может включать не только категориальные, но и метрические независимые переменные, и вы также можете использовать регрессионный анализ для более чем одной независимой переменной (= множественная регрессия или многомерная регрессия).

Вернемся к набору данных NINDS для примера:

Вот регрессия для проверки связи между весом и историей гипертонии:

Как вы можете видеть, существует значимая связь между гипертонией и весом, со значением p 0,0465 и коэффициентами, указывающими, что средний вес пациентов без гипертонии составляет около 76 кг, а пациенты с гипертонией весят в среднем на 3 кг больше. Конечно, это можно было исследовать с помощью Т-теста.

Однако регрессия позволяет нам вводить в модель больше независимых переменных. Можно, например, предположить, что вес также связан с диабетом. Если мы добавим эту переменную в модель, произойдет кое-что интересное:

Давайте сначала рассмотрим коэффициенты один за другим. Пересечение \ (75,303 \) - это средний вес человека без гипертонии и без диабета. У пациентов с артериальной гипертензией средний вес увеличивается на 2,349 кг до 77,652. Для пациентов с диабетом средний вес увеличивается на 6,050 кг, в результате чего только у пациентов с диабетом средний вес составляет 81,353 кг. С другой стороны, пациенты с артериальной гипертензией и диабетом в конечном итоге получают в среднем \ (75,303 + 2,349 + 6,050 = 83,702 \) кг.

Однако, глядя на p-значения, мы можем видеть, что только влияние диабета на вес является значимым (p

В этом сценарии мы говорим, что при контроле диабета гипертония не влияет на вес пациентов . Это означает, что BHYPER не содержит информации о весе пациентов, которая еще не представлена ​​в информации в BDIAB.

4.2.4 Логистическая регрессия

Регрессионный анализ не ограничивается метрическими зависимыми переменными. Когда мы хотим проанализировать связь нескольких переменных с бинарной переменной, например, мы можем использовать логистическую регрессию, которая принадлежит к более широкой группе обобщенных линейных моделей (glm) .

Давайте проверим, связано ли наличие гипертонии BHYPER с весом и возрастом испытуемых NINDS. Логистическая регрессия вычисляется так же, как обычная линейная регрессия, но с использованием glm () вместо lm () для построения модели. Поскольку glm () может использоваться для ряда других моделей, помимо модели для логистической регрессии, мы должны указать аргумент family = binomial, чтобы указать, что наша зависимая переменная происходит от биномиального распределения, то есть является двоичной переменной:

Перехватчик (\ (b_0 \ приблизительно -3,33 \)) представляет собой логарифмическую вероятность наличия гипертонии для человека 0 лет и весом 0 кг. Это теоретическое значение, конечно, не имеет смысла, как это часто бывает с перехватами в регрессии, где 0 на самом деле не является возможным значением для независимой переменной (переменных).

Однако два других коэффициента можно интерпретировать как логарифмические отношения шансов, связанные с увеличением на одну единицу в зависимой переменной. Логарифмический коэффициент гипертонии увеличивается на 0,018 на каждый прибавленный килограмм. Они увеличиваются на 0,04 с каждым годом старше человека. Это означает, например, что у человека, который на десять лет старше другого человека, логарифмические шансы гипертонии на \ (0,04 \ cdot10 = 0,4 \) выше.

Поскольку логарифмические шансы трудно интерпретировать, коэффициенты часто возводятся в степень, что приводит к более интерпретируемым шансам (для точки пересечения) и отношениям шансов (для других коэффициентов). Для этого в R мы можем напрямую извлечь коэффициенты из объекта mod3:

Эти выходные данные говорят нам, например, что шансы заболеть гипертонией увеличиваются в 1,04 раза на каждый дополнительный год жизни. Для двух лет коэффициенты соответственно увеличиваются на \ (1.04 \ cdot 1.04 = 1.04 ^ 2 \), для 10 лет они увеличиваются на \ (1.04 ^ = 1.48 \). Важно помнить, что аддитивный характер коэффициента на исходной шкале (т.е. логарифмической шкалы шансов) трансформируется в мультипликативную природу, когда мы преобразуем коэффициенты с экспоненциальным преобразованием (т. Е. В шкалу шансов).

Конечно, вы можете снова взглянуть на доверительные интервалы по обеим шкалам:

4.3 Анализ времени до события

Данные о времени до события, традиционно часто называемые данными о выживаемости, получены из исследований, в которых за пациентами наблюдали с течением времени, пока не произошло конкретное событие (например, смерть или рецидив). Обычно мы анализируем эти данные с помощью оценщика Каплана-Мейера. Два хороших пакета с функциями для вычисления оценки Каплана-Мейера, а также несколько других полезных статистических данных - это выживание пакетов (Therneau 2020) и Survminer (Kassambara, Kosinski и Biecek 2020), поэтому мы установим и загрузим эти пакеты:

Сначала мы вычисляем так называемый объект выживания для выживания пациентов NINDS с помощью функции Surv (). Результатом этой функции является R-объект, который мы можем использовать для последующего фактического анализа выживаемости. Surv () ожидает два аргумента: время выживания (в нашем случае SURDAYS) и числовую переменную, указывающую, умер субъект или нет. Поскольку переменная DCENSOR, содержащая эту информацию, является фактором, мы должны заключить ее в функцию as.numeric (), чтобы превратить ее в числовую:

Чтобы вычислить оценки Каплана Мейера, мы используем функцию Survfit () для s. Если мы хотим общей выживаемости, мы пишем:

И нанесите результаты с помощью:

Однако интереснее сравнивать выживаемость разных групп. Давайте сравним выживаемость группы лечения t-PA и контрольной группы плацебо из переменной TREATCD:

Функция ggsurvplot () также имеет много хороших дополнительных опций. risk.table = TRUE добавляет таблицу для числа подверженных риску под графиком, pval = TRUE добавляет p-значение теста логарифмического ранга, сравнивающего выживаемость двух групп, а pval.method = TRUE печатает имя группы тест выше p-значения:

Также можно посмотреть на оценки Каплана Мейера как на числа напрямую, вызвав summary (sf_treat), но поскольку вывод довольно длинный, мы не будем его здесь печатать.