Глава 11 Статистические шансы

Содержание: [Показать]

Теперь мы начинаем обсуждение обобщенных линейных моделей. Но прежде чем перейти к деталям моделей, мы сделаем небольшое отступление, чтобы обсудить статистические шансы. Это необходимо для того, чтобы по-настоящему понять и оценить более тонкие детали логистической регрессии.

Рассмотрим игру в рулетку:

Рисунок 11.1: Изображение стола американской рулетки (с 0 и 00).

В этой игре крупье вращает колесо в одном направлении, а затем вращает шарик, известный как таблетка , в противоположном направлении. Контактный остановится на одном из 38 назначенных номеров (0, 00, 1, 2, \ (\ \ ldots), 36). Вы заметите, что нулевые значения окрашены в зеленый цвет, а остальные числа чередуются с красным или черным цветом. Игроки будут делать ставки на различные части игрового поля.

Наша цель здесь не в том, чтобы изучать азартные игры. Однако рулетка представляет собой хороший пример основных вероятностей и разногласий. Рассмотрим простой случай, когда игрок делает ставку либо на красное,либо на черное.

Для обсуждения предположим, что игрок делает ставку на красное. Какова вероятность их победы?

РешениеВ игре 38 возможных исходов, 18 из которых красные. Вероятность того, что игрок выиграет, равна 18/38 или 0,4737. Вероятность проигрыша игрока - это дополнение, которое составляет 20/38 или 0,5263.

11.1 Вероятность против шансов

Шансы связаны с вероятностями, но разные. В шансы на выигрыш рассчитывается путем подсчета числа способов выиграть игру, и разделить на количество способов вы проиграете. Таким образом , в нашем рабочем примере есть 18 способов красных цветапроисходит в то время как существует 20 способов результата не красный цвет. Таким образом, вероятность красного 18/20 = 0,9.

В мире азартных игр можно сказать, что вероятность красногосоставляет 9 к 10.

Упражнение на размышления:для тех, кто любит азартные игры, в стандартном казино ставки на красноеили черноеобычно выплачиваются в соотношении 1 к 1, то есть если вы ставите 100 долларов на черное,а результат черный, вы выигрываете 100 долларов. Стоит ли играть в эту игру? Вы бы сыграли в эту игру?

11.2 Соотношение шансов

Теперь, когда у нас есть базовое представление о шансах , давайте рассмотрим пример, не связанный с азартными играми (мотивированный данными).

Рисунок 11.2: Изображение RMS Titanic (без повреждений от айсберга)

14 апреля 1912 года «Титаник» столкнулся с айсбергом в северной части Атлантического океана у побережья Ньюфаундленда. Примерно через 3 часа после столкновения с айсбергом «Титаник» затонул 15 апреля 1912 года в 2:20 ночи.

В документе «Пересмотренные данные о необычном эпизоде», опубликованном в Журнале статистического образования, том 3, № 3 (1995), записи для 2201 пассажира и экипажа были записаны с указанием статуса их билетов (переменная класса), возраста ( классифицируются как Взрослый / Ребенок), Пол (Женский / Мужской) и пережили ли они затопление.

В этом примере мы исследуем шансы выжить после гибели Титаника в зависимости от различных переменных. Сначала рассмотрим базовый случай выживания, мы построим таблицу смежности, используя функцию xtabs () в R.

Какова вероятность того, что случайно выбранный пассажир пережил гибель Титаника?

Каковы шансы на выживание случайно выбранного пассажира?

Решения

Вероятность того, что случайно выбранный пассажир выжил, равна \ (\ frac \) или 0,323.

Шансы на выживание равны \ (\ frac \) или 0,4772.

Мысленное упражнение:если бы шансы в рулетке были аналогичны выживанию на Титанике, вы бы сыграли в эту игру?

В наборе данных Титаника у нас есть и другая информация, помимо того, выжил человек или нет. Рассмотрим простой вопрос: помогает ли гендер объяснить или предсказать способность человека пережить это бедствие?

Мы изучили множество подобных проблем. Влияет ли площадь на продажную цену дома; предсказывает ли оценка ACT средний балл за первый год обучения; так далее…

Здесь все по-другому, потому что наша переменная ответа (выжила или нет) является категориальной (бинарной), как и наша переменная-предиктор (пол). Самый простой способ исследовать такие отношения - использовать двухстороннюю таблицу смежности:

Если вы женщина, каковы ваши шансы выжить?

Если вы мужчина, каковы ваши шансы выжить?

Упражнение на размышления- рассмотрите идеи азартных игр сверху. Если вы знаете пол человека, готовы ли вы сделать ставку на выживание или нет?

Похоже, что существует связь или связь между полом и выживанием после гибели титаника.

В конечном итоге в этом классе нас интересует статистическое моделирование, но титанический набор данных представляет собой пример категориального анализа данных - области исследования, которая была кратко рассмотрена в вашем курсе «Вводная статистика». Этот анализ по-прежнему популярен в нескольких областях (психология и социология) и подходит для некоторых видов данных.

В приведенном выше расчете относительно Титаника мы, по сути, определяем связь между категориями с бинарным ответом (выжил или умер). Это несколько количественных мер ассоциации для категориальных данных. У каждого есть свои плюсы и минусы. Мы просто перечислим их здесь и побудим заинтересованного читателя самостоятельно изучить тему:

  • Крамер V
  • Статистика \ (\ phi \)
  • Относительный риск

Первые два метода основаны на тесте хи-квадрат для ассоциации (обычно описанном в Intro Stat). Их можно рассматривать как аналогичные меры коэффициента корреляции \ (r \), которые мы видели при регрессии. Относительный риск взят из мира биостатистики и может быть отличным инструментом для сравнения такого рода отношений. В основном вы сравниваете условные вероятности: \ (\ textrm = \ frac \) = 0,7319 и \ (\ textrm = \ frac \) = 0,212

Относительный риск выживания для женщины по сравнению с мужчиной равен \ (\ frac \) = 3,4522.

Если бы не было никакой связи между полом и выживанием, это относительное значение риска было бы приблизительно равным единице. Здесь мы видим, что случайный пассажир женского пола имел более чем \ (3 \ раза \) шанс на выживание по сравнению с пассажиром мужского пола.

Примечание.Этот пример немного странный, потому что риск - это, как правило, плохо. В нашем вышеупомянутом обсуждении интерес представляет собой выживание. Если я переделал вещи с точки зрения не выживания (т. Е. Смерти!), Мы увидим, что относительный риск смерти для женщины по сравнению с мужчиной составляет 0,3402. Таким образом, случайно выбранная самка погибла бы только в 1/3 процента мужчин.

11.3 Идеи моделирования шансов

В приведенном выше обсуждении кажется, что пол является предиктором выживания. Другие переменные включены в набор данных. Дополнительный анализ дает дополнительный анализ таблицы непредвиденных обстоятельств.

Шансы на выживание ребенка составляют 1,0962, а у взрослого - 0,4548.

Хотя это и не идеально, на «Титанике» лучше быть ребенком, чем взрослым.

А как насчет переменной класса. Здесь все становится немного интереснее, потому что есть несколько категорий

Мы видим очевидные вещи:

  • Лучше быть первым классом
  • Если не первый, рискни во втором классе.
  • Члены экипажа и третий класс не очень хорошо себя чувствовали.

Конечно, все эти факторы могут взаимодействовать! Мы вернемся к этой теме в следующей главе, но пока мы можем построить более сложные таблицы смежности. Здесь мы оборачиваем вывод xtabs в функцию ftable () для более приятного вывода. Сначала примите во внимание класс и возраст выживания.

Мы видим, что быть ребенком в первом или втором классе оказалось неплохо. Дети третьего класса не выживали с более высокой частотой.

Точно так же мы можем изучить другие взаимодействия.

Наконец, мы можем полностью взаимодействовать между всеми переменными.

Следует отметить, что количество отсчетов равно нулю (все дети первого и второго класса выжили, и в команде не было детей). Это повлияет на возможный выбор моделей, которые мы рассмотрим в следующей главе.