Логистическая регрессия¶

Содержание: [Показать]

Проще говоря, регрессионный анализ - это подгонка линии к группе точек. Требуемое допущение состоит в том, что зависимая переменная представляет собой шкалу со многими различными значениями и с одинаковым расстоянием между значениями.

Но что произойдет, если зависимая переменная может принимать только значение 0 или 1? Например, голосовал ли человек за определенную партию (1) или нет (0). Тогда мы можем получить странные результаты из обычного регрессионного анализа, например, предположить, что человек проголосовал за партию 0,75, или 1,2, или даже -0,3.

Однако для таких переменных существует особый вид регрессионного анализа: логистическая регрессия.Он разработан для зависимых переменных, которые имеют только значение 0 или 1. Функция вычисляет вероятность того, что каждое наблюдение имеет значение 1, и эта вероятность никогда не будет меньше 0 или больше 1. Этот метод часто используется для классификации наблюдений как либо нули, либо единицы.

Анализ нельзя «решить», как обычный регрессионный анализ, в котором есть одно оптимальное решение. Вместо этого используется итерационный процесс, когда компьютер постепенно сходится к лучшему ответу с помощью метода максимального правдоподобия. Однако на практике выводы о взаимосвязях между переменными обычно одинаковы, независимо от того, используем ли мы обычную регрессию (OLS) или логистическую регрессию.

В этом руководстве мы расскажем, как выполнить логистическую регрессию в Stata, как интерпретировать результаты, а также проведем сравнение с «обычной» регрессией OLS.

Мы будем использовать данные Американского общего социального исследования, опроса обычных людей, с вопросами по множеству тем. Мы будем использовать версию 2018 года. Загрузите его с сайта и загрузите, чтобы следовать примеру.

Вопрос и переменные¶

Мы будем исследовать, связана ли идеология респондентов с вероятностью голосования за Дональда Трампа на президентских выборах 2016 года. Информация о выборе голосов находится в переменной «pres16». Мы начинаем с перекодирования переменной с помощью recode, чтобы в переменную были включены только люди, которые действительно проголосовали на выборах. Избиратели Трампа получают значение 1, все остальные - 0. Мы сохраняем информацию в новой переменной под названием «dum_trump». Затем мы составляем таблицу частот с таб.

40 процентов респондентов говорят, что проголосовали за Трампа. Теперь мы увидим, как выбор голосов связан с идеологией. Переменная идеологии называется «polviews» и варьируется от «крайне либеральной» до «крайне консервативной».

Анализ и интерпретация результатов¶

Теперь у нас есть все необходимое для проведения анализа. Команда проста: независимый логит. Делаем это ниже:

Сначала мы получаем отчет о том, как модель пришла к лучшему решению. Обычно нам это не нужно, но когда у нас есть очень сложная модель, возможно, что модель не сходится. Тогда было бы неплохо упростить модель.

Следующая таблица очень похожа на ту, которую мы получаем из регрессии OLS. В строках у нас есть независимые переменные, каждая из которых имеет коэффициент, стандартную ошибку, z-оценку (вместо t-значения), значение значимости (столбец P>| Z |) и доверительные интервалы для коэффициента.

Коэффициент показывает, что по мере увеличения количества просмотров (что означает, что респондент более консервативен) вероятность проголосовать за Трампа увеличивается. Если бы коэффициент имел знак минус, соотношение было бы противоположным. Мы также можем видеть, что коэффициент статистически значим (поскольку p-значение меньше 0,050).

Вверху и справа от таблицы у нас есть статистика «Псевдо R2». Он построен так, чтобы выглядеть как значение R2 в регрессии OLS и находится в диапазоне от 0 до 1. Здесь это 0,2826, что означает, что 28 процентов вариации в голосовании за Трампа можно объяснить идеологией респондентов.

Лог-шансы и шансы¶

Но насколько именно увеличивается вероятность? По этим коэффициентам сложно сказать. Они показывают, насколько увеличиваются так называемые логарифмические шансы, когда «количество просмотров» увеличивается на один шаг. А каковы шансы на лог? Сначала нам нужно знать, каковы шансы. Шансы - это вероятность того, что респондент проголосовал за Трампа, деленная на 1 минус такая же вероятность; то есть вероятность того, что что-то произойдет, деленная на вероятность того, что этого не произойдет.

Логарифм-шансы - это натуральный логарифм этих шансов: $ logodds = ln \ left (\ frac

\ right) $

Таким образом, когда «polviews» увеличивается на один шаг, этот показатель увеличивается на 1,04. Не очень интуитивно понятно, за исключением того, что легко увидеть, положительный или отрицательный эффект.

Причина, по которой коэффициенты не показывают, на сколько процентных пунктов вероятнее проголосовать за Трампа, если ваша идеология более консервативна, заключается в том, что это сделало бы отношения линейными, как при нормальной регрессии. Это может привести к тому, что мы предсказываем, например, что вероятность голосования Трампа превышает 100%. Мы вернемся к этому вопросу позже.

Соотношение шансов¶

Другой способ показать коэффициенты - это отношения шансов. Они показывают, насколько увеличение независимой переменной увеличит шансы, но в виде отношения. Если отношение шансов равно 2, это означает, что увеличение независимой переменной на единицу удвоит шансы. Если отношение шансов равно 0,5, это означает, что увеличение независимой переменной на единицу уменьшит шансы вдвое. Когда мы используем отношения шансов, различие между положительными и отрицательными отношениями проводится в 1, а не в 0, как в случае с обычными коэффициентами.

Мы получаем отношения шансов, повторяя анализ, добавляя опцию или: