Байесовская модель для принятия очень прикладного решения в американском футболе

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

В американском футболе атакующей команде дается 4 попытки, чтобы пройти 10 ярдов и тогда команда имеет право продолжить атаковать (владеть мячом). И очень часто, перед розыгрышем 4-ой попытки, тренерам приходится решать - попытаться добрать оставшееся до минимальных 10 ярдов с риском не дойти и отдать сопернику мяч в текущей точке поля, либо сразу пробить ногой по мячу, запнув мяч подальше, обезопасив так себя в защите. Чтобы облегчить принятие этого решения и повысить его эффективность в этой статье мы построим байесовскую модель.

Необходимая подготовка: базовые знания теоремы Байса и уверенные знания правил и терминологии американского футбола.

Термины американского футбола из статьи

Правила американского футбола (видео)

  • Попытка - базовый розыгрыш, начинается по команде квотербека, заканчивается через несколько секунд после остановки игрока с мячом.

  • Тачдаун - ситуация, когда атакующая команда донесла мяч до зачетки соперника - противоположного края поля.

  • Пант - пробитие по мячу ногой с целью отвести мяч как можно дальше от своей зачетки.

  • Владение - в американском футболе на поле одновременно владеть мячом может только одна команда. Владением называется время, когда команда владеет мячом и пытается набрать очки.

  • Пик-сикс - результативное действие в защите. Когда удается в защите перехватить мяч и занести тачдаун.

  • Линия скриммиджа - текущее положение мяча перед попыткой.

Задача 

Выбрать бить пант или играть на 4-ой попытке в ситуации "4 и j ярдов" на позиции поля в i ярдов от своей зачетки.

События

Из постановки задачи следует, что мы должны рассматривать два владения (своего текущего и следующего за текущим, которое получает соперник). За время этих двух владений может произойти 4 события, полностью описывающие значимые и возможные расклады (может произойти несколько событий): 

  • если играем 4-ую попытку:

    • A: наша команда занесет тачдаун по итогам двух владений

    • B: наша команда пропустит тачдаун по итогам двух владений (включая ответный тачдаун на наш занесенный)

  • если бьем пант:

    • C: наша команда пропустит тачдаун по итогам двух владений

    • D: наша команда занесет тачдаун по итогам двух владений (пик-сикс)

Решение

Общая идея

Таким образом, задача сводится к сравнению четырех вероятностей: 

  • P(A): вероятности занести прямой тачдаун при выборе сыграть 4-ую попытку, 

  • P(B): вероятности пропустить тачдаун при выборе сыграть 4-ую попытку, 

  • P(C): вероятности пропустить тачдаун при выборе панта, 

  • P(D): вероятности занести тачдаун при выборе панта.

И выбор, играть 4-ую попытку или нет сводится к решению неравенства:

P(A) - P(B)?P(C) - P(D)

События, которые влияют на вероятности в левой части неравенства, являются: занесенный и пропущенные тачдауны по итогам двух владений, а так же набранный первый даун по итогам розыгрыша 4-ой попытки. 

Эти события статистически зависимы, будем использовать формулу Байеса. Задача может быть описана и в терминах обычной теории вероятности (и даже сведется к ней), но для того, чтобы показать полноту зависимостей вероятностей, будем использовать теорему Байеса.

Событиями в правой части неравенства являются пропущенный тачдаун и занесенный тачдаун по итогам двух владений, а так же количество ярдов, на которое наша команда отодвинет соперника при панте. Последнее событие (ярды, на которые будет отодвинута линия скриммиджа после панта) мы примем за константу и возьмем среднее значение из статистики. Таким образом, эти события статистически независимы, поэтому будем использовать здесь обычные безусловные вероятности.

Розыгрыш 4-ой попытки

Вероятность занести тачдаун при решении играть 4-ую попытку, или P(A), зависит от того, будет ли успешной 4-ая попытка. А так же зависит от того, как успешно наша команда реализует ситуацию первого дауна, на конкретном участке поля, в тачдаун. Эти вероятности полностью описывают все возможные исходы, и самое удобное, могут быть взяты из накопленной (для собственной команды) статистики:

  • P(X): статистическая вероятность пройти j ярдов за одну попытку,

  • P(A|X): статистическая вероятность занести тачдаун с i-того ярда поля (из ситуации 1-10).

Здесь мы пренебрегаем возможными набранными ярдами на 4-ой попытке и для простоты принимаем i как текущую отметку второго маркера.

Переходя к терминам теоремы Байеса мы полагаем P(A|X) апостериорной вероятностью при условии события X, а P(A) полагаем искомую априорную вероятность. 

Таким образом базовая формула теоремы Байеса: 

P(A|X) = ( P(X|A) * P(A) ) / P(X)

где P(X|A) - это вероятность реализовать 4-ую попытку при условии, что наша команда занесет тачдаун, а это, согласно здравому смыслу, равно единице. Таким образом, наша искомая априорная вероятность:

P(A) = P(A|X) * P(X)

В итоге P(A) мы считаем простым перемножением вероятности пройти j ярдов на вероятность занести с i-того ярда из ситуации 1-10. Обе вероятности берем из статистики.

Вероятность пропустить тачдаун при решении играть 4-ую попытку, или P(B), - это сумма двух априорных вероятностей:

  • P(Y): вероятности пропустить тачдаун при неудачном розыгрыше 4-ой попытки (с места её розыгрыша, из ситуации 1-10 для атаки соперника). Причем вероятность неудачного розыгрыша 4-ой попытки равен 1 - X.

  • P(Z): вероятности пропустить тачдаун в случае удачного розыгрыша 4-ой попытки, например, при смене владения на следующих драйвах и даже после нашего тачдауна в ответном владении с возврата начального удара.

Эти две вероятности априорные, то есть мы должны учесть вероятность удачного розыгрыша 4-ой попытки. То есть в случае неудачного розыгрыша 4-ой попытки:

P(Y) = P(Y|(1-X)) * P(1-X)

и в случае удачного розыгрыша 4-ой попытки:

P(Z) = P(Z|X) * P(X)

Для упрощения, примем за P(Z|X) простую статистическую вероятность пропустить тачдаун после пробития начального удара. Еще немного упрощая мы можем свести вероятность пропустить после начального удара к вероятности пропустить с 30 + k ярдов, то есть с места, куда мы в среднем отдвигаем пантом с места пробития начального удара.

Эти вероятности полностью описывают все возможные исходы, и самое удобное, могут быть взяты из накопленной (для собственной команды) статистики.

Таким образом, опять же использую теорему Байеса:

P(B) = P(Y|(1-X)) * P(1-X) + P(Z|X) * P(X)

А общий ущерб (мы ведь находимся уже в уязвимой ситуации при игре 4-ой попытки и считаем, в каком случае ущерб будет меньшим) от решения играть 4-ую попытку: 

P(A|X) * P(X) - P(Y|(1-X)) * P(1-X) - P(Z|X) * P(X)

Смысл выражения сводится к подсчету разницы вероятных тачдаунов за два владения.

Пант

При розыгрыше панта мы фактически отказываемся от своей попытки (из двух рассматриваемых нами) и подсчет сводится к вероятному ущербу при игре нашей команды в защите. 

Для этого нам нужно знать откуда соперник начнет свое владения и вероятность пропустить тачдаун. Для упрощения вероятность занести тачдаун при владении соперника (пик-сикс) будем считать равно нулю. Таким образом P(D) = 0. 

Альтернативно можно взять это значение из статистики

Для упрощения мы будем считать, что наша команда при панте отодвигает соперника на одно и то же, среднее расстояние. Итак, из накопленной статистики мы берем:  

  • k: среднее количество ярдов, на которое наша команда отодвигает соперника пробитием панта с учетом возврата,

  • P(С): статистическая вероятность пропустить тачдаун с i+k ярда поля (из ситуации 1-10).

Стоит обратить внимание, что P(С) берется для i+k ярда, то есть для текущей позиции на поле плюс среднее количество ярдов после панта.  

Итог

Для принятия решения о том, стоит ли играть 4-ую попытку или пробивать пант надо сравнить возможный ущерб (с учетом и возможной пользы) от первого решения и возможный ущерб от второго. Причем, все данные мы можем взять из накопленной статистики. К тому же внимательный читатель заметит, что P(Y|(1-X)), P(Z|X) и P(C) суть одно и то же, только берутся для разных i или позиций на поле.

P(A|X) * P(X) - P(Y|(1-X)) * P(1-X) - P(Z|X) * P(X)?P(C)

Таким образом, имея статистику розыгрышей собственной команды и указав текущее положение команды на поле перед 4-ой попыткой (количество ярдов до первого дауна и положение линии скриммиджа) можно оценить шансы и выбрать наиболее эффективный исход.

Для демонстрации идеи я написал скрипт в jupiter notebook, где можно поиграться с показателями и положением на поле, плюс графики, показывающие распределение шансов в случае панта или игры 4-ой попытки.

Надеюсь, тема не настолько ультра узкая, чтобы вообще никому не была полезной. Но для себя было интересно поупражняться в практическом, до почвенного уровня, применении Байесовских моделей. Если где-то ошибся - пишите, внесу изменения или дополнения в статью.

Копирайт на обложку

Картинка обложки взята здесь: Design вектор создан(а) freepik - ru.freepik.com

Источник: https://habr.com/ru/post/542554/


Интересные статьи

Интересные статьи

Дизель-генератор. Спонтанная эмоциональная покупка. Вышли за батоном и колбасой, вернулись с ним Выбираем только гомогенное железо, убрали отдел продаж, не ездим на переговоры с 2015...
Привет, Хабр! Представим, что у нас есть задача построить новую дорогу. Можно построить магистраль с двумя полосами в каждую сторону, но что, если этого будет недостаточно? Или, наоборот, ока...
Перевод статьи подготовлен специально для студентов курса «Разработчик Python». Когда вы пишете на низкоуровневом языке, таком как С, вы беспокоитесь о выборе правильного типа данных и специ...
Приступая к животрепещущей теме резервного копирования на «Битрикс», прежде всего хотелось бы поблагодарить разработчиков, реализовавших автоматическое резервное копирование в облачное хранилище в вер...
«Битрикс» — кошмар на костылях. Эта популярная характеристика системы среди разработчиков и продвиженцев ныне утратила свою актуальность.