06. Принцип максимина в антагонистических играх. Седловая точка

Как отмечалось, важнейшим вопросом в теории игр (в том числе и матричных) является вопрос о выборе оптимальных стратегий для каждого из игроков.

Оптимальной стратегией игрока в матричной игре называется такая, которая обеспечивает ему максимальный выигрыш. Если игра повторяется неоднократно, то оптимальная стратегия должна обеспечивать максимальный средний выигрыш.

При выборе этой стратегии основой рассуждений является предположение, что Противник является, по меньшей мере, так же разумен, как и мы сами, и делает все, чтобы добиться такой же цели.

Расчет на разумного противника - лишь одна из возможных позиций в конфликте, но в теории игр именно она кладется в основу.

При этом для выбора оптимальной стратегии используют Принцип максимина: Выбирай ту стратегию, чтобы при наихудшем для нас поведении противника получить максимальный выигрыш. Другими словами, принцип максимина предполагает выбор той стратегии, при которой наш минимальный выигрыш для различных стратегий максимален. Отсюда и название «принцип максимина».

Как видно, принцип максимина - это принцип крайне осторожного игрока, но именно он является основным принципом теории матричных игр.

Для пояснения принципа максимина рассмотрим пример 1 матричной игры G (4х5) с платежной матрицей, приведенной на рис. 2.2.

Пример 1.

Рис. 2.2

Какой стратегией игроку А воспользоваться? Есть соблазнительный выигрыш 12, при применении стратегии А3. Но при этом противник может выбрать стратегию В3, и игрок А получит выигрыш, равный всего трем.

Для определения оптимальной стратегии в соответствии с принципом максимина, запишем в правом добавочном столбце платежной матрицы минимальное значение AI в каждой строке (минимум строки). Из всех значений AI (правый столбец) выделим наибольшее. Ему соответствует стратегия А4. Выбрав эту стратегию, мы во всяком случае можем быть уверены, что при любом поведении противника выигрыш будет не менее пяти.

Эта величина - наш гарантированный выигрыш. Он называется Нижней ценой игры (или «максимином» - максимальный из минимальных выигрышей). Будем обозначать его A. В нашем примере a = Aij =5.

Теперь станем на точку зрения игрока В и порассуждаем за него. Выбирая стратегию, он хотел бы отдать поменьше, но должен рассчитывать на наихудшее для него поведение игрока А.

Припишем к платежной матрице (рис.2.2) нижнюю строку и в ней запишем наихудшее для игрока В возможные результаты (максимумы столбцов BJ.

Очевидно, осторожный противник должен выбрать стратегию, при которой величина BJ минимальна. Эта величина называется Верхней ценой игры (или “минимаксом” - минимальный из максимальных проигрышей). Будем обозначать ее B. В нашем примере b = Aij = 7.

Итак, исходя из принципа осторожности, игрок А должен выбрать стратегию А4, а его противник - В3. Такие стратегии называются максиминными или минимаксными стратегиями (вытекающие из принципа максимина).

До тех пор, пока обе стороны в нашем примере будут придерживаться своих максиминных стратегий, выигрыш игрока А и проигрыш игрока В будет равен А43=5.

Легко показать, что нижняя цена игры никогда не превосходит верхней цены игры.

Лемма 1. Пусть задана матрица выигрышей

А = êêaijêêи определены b= и a= .

Тогда .

Доказательство. По определению максимума и минимума для любых фиксированных значений I и J имеем

(2.1)

Поскольку левая часть неравенства (2.1) не зависит от I, то можем записать

(2.2)

Так как правая часть неравенства (2.1) не зависит от J, то

(2.3)

Объединяя неравенства (2.2) и (2.3), получаем неравенство (2.1), что и требовалось доказать. Итак, всегда B³A.

Случай B=A, соответствует наличию у платежной матрицы так называемой Седловой точки.

Определение. Точка (I*, J*) называется седловой точкой платежной матрицы ||AIj||, если для всех остальных i и j этой матрицы выполняется условие

Ai*j ³ai*j*³ aij*,

Т. е. Аij является одновременно минимумом своей строки и максимумом своего столбца.

Приведем без доказательства следующую теорему.

Теорема 1. Для того чтобы

Необходимо и достаточно, чтобы матрица ||AIj|| имела седловую точку. Кроме того, если (I*, J*) - седловая точка матрицы ||AIj||, то

(2.4)

Говорят, что матричная игра имеет седловую точку, если соответствующая ей матрица выигрышей (платежная матрица) имеет седловую точку.

Пример 2. Найти решение игры G (3х3), платежная матрица которой имеет следующий вид:

Bj Ai	B1	B2	B3	AI
A1	0	-1	-2	-2
A2	3	2	-1	-1
A3	6	3	0	0
Bj	6	3	0

Определим и И запишем их в таблицу.

Нижняя цена игры

Верхняя цена игры

Так как a=b=0, то платежная матрица и матричная игра имеют седловую точку. Оптимальными стратегиями для игрока А является стратегия А3, а для игрока В - В3.

Легко заметить, что отклонение игрока А от оптимальной стратегии приводит к уменьшению его выигрыша, а одностороннее отклонение игрока В - к увеличению его проигрыша.

Могут встречаться случаи, когда платежная матрица имеет несколько седловых точек, однако это не изменит характера рекомендуемых решений, поскольку все ситуации равновесия имеют одну и ту же цену, а следовательно, эквиваленты.

Пример 3. Найти решение игры G (3х4), платежная матрица которой имеет вид:

Bj Ai	B1	B2	B3	B4	AI
A1	7	6	9	6	6
A2	8	4	3	4	3
A3	7	6	8	6	6
BJ	8	6	9	6

Определим aI и bj и запишем их в таблицу.

Находим нижнюю и верхнюю цену игры:

; . Видно, что игра имеет четыре седловые точки с соответствующими парами оптимальных стратегий: А1В2; А1В4; А3В2 и А3В4. Цена игры равна 6.

В заключение отметим, что с позиций игрока 1 второй игрок руководствуется принципом Минимакса, обеспечивающим минимизацию максимальных потерь. Но с собственной точки зрения игрока 2, оценивающего свой выигрыш, он также руководствуется принципом максимина. Поэтому, как правило, говорят лишь об использовании в антагонистической игре принципа максимина обоими игроками.

< Предыдущая		Следующая >