Лекція 6. Співпраця та суперництво в колективі агентів.
На попередній лекції ми розглянули спосіб як змусити систему самостійно виконати розбиття на взаємодоповнюючі функціональні блоки. На цій лекції ми розглянемо спосіб в який система самостійно визначає ступінь зв’язності (взаємозалежності) блоків (це щось на зразок самостійного визначення співвідношення p1 і p2 в МКП з адаптивним управлінням). Обидва способа дозволяють робити це динамічно в залежності від змін в оточенні системи, чи змін в задачах, які ставить перед системою її користувач.
6.1. Поняття співпраці (cooperation) та суперницства (competition).
Агент ставиться в умови вибору між власними інтересами та інтересами колективу (тобто інтресами інших агентів). Це протирічча в поведінці агента використовуюється для знаходження колективом оптимального рівня взаємодії (взаємозалежності) агентів в наперед невідомих умовах (недоступне нестаціонарне середовище), що відповідає максимуму цільової функції колективу.
Протидія (протиборство): випадок, коли інтереси агентів антогоністичні (повністю протилежні) ( модель: гра з нулевою сумою (zero-sum game) ( "неколектив" (гра n гравців з нулевою сумою). Якщо інтереси агентів не протилежні (гра з загальною сумою, general-sum game, колектив), то серед них можна виділити спільні інтереси (предмет співпраці), та протилежні інтереси (предмет суперництва).
Сценарій: В кожний момент часу N агентів одночасно реалізують обрані ними дії і отримують відгук середовища. В момент реалізації дії агенту невідомо які дії обрали інщі агенти. При цьому кожний з них зацікавлений в першу чергу величиною власного виграшу (децентралізоване управління) (+володіє достовірною інформацію лише про власний виграш). Розглядається ситуація, коли індивідуальні виграші можуть бути різними (завдяки різним причинам) і дії одних агенів можуть впливати на величину індивідуального виграшу інших агентів. Ключове питання: як агентам співвідносити свої індивідуальні виграші, щоб реалізувати найкращу колективну поведінку?
6.2. Співвідношення між індивідуальною та колективною продуктивністю.
Проблема субоптимізації: збільшення індивідуального виграшу (продуктивності) окремого агента не завжди призводить до збільшення колективного виграшу. Приклад: використання обмеженого спільного ресурсу.
Можливий вихід (еволюція співпраці, Evolution of Cooperation): Довготривала (стійка) співпраця може призвести до нелінійного зростання сумарного виграшу S((t,N): (synergy), наприклад за рахунок подолання обмежень на спільний ресурс (вовки).
Корисність індивідуальних дій (individual utility) – це оцінка внеску даного агнета в загальний результат колективної дії. Приклади: функціональна корисність – об’єм виконаних робіт в порівнянні з іншими агентами (землекопи), інформаційна корисність – "цитатна міра", кількість інформації про середовище, здобута даним агентом в порівнянні з іншими. Ця оцінка може бути використана як складова індивідуальної функції виграшу агента (individual utility function) за принципом: чим більша корисність дій агента для колективу, тим більше його виграш.
6.3. Ітераційна ділема ув’язненого (Iterated Prisoners Dilemma, IPD).
Матриця гри для ділеми ув’язненого виглядає наступним чином
A2


C
D

A1
C
R1, R2
S1, T2


D
T1, S2
P1, P2

Ділема ув’язненого це гра двох осіб з не нульовою сумою (general-sum game). Кожний з гравців має дві можливості: співпрацювати (C - cooperate) чи протидіяти (D - defect). Ідея гри полягає в тому, що, якщо обидва гравці співпрацюють, то вони виграють (R), але, якщо один з них починає протидіяти, то він виграє більше (T>R). Якщо ж обидва гравці протидіють, то вони програють (P), але не так багато як програє "ошуканий" гравець в першому випадку (S< P).
Ділема ув’язненого має зміст, коли T>R>P>S, де R>(S+T)/2, Приклад: T = 5, R = 3, P = 1, S = 0.
Ітераційна ділема ув’язненого (iterated prisoner’s dilemma, IPD) – це гра з багатокроковим повторенням, в якій кожний з опонентів пам’ятає деяку кількість (глибина пам’яті) результатів минулих розіграшів. Згідно теорії ігор оптимальною (стійкою) стратегією в однокроковій IPD є протидія (D) (див. основне припущення ТІ та принцип обережності). В той же час при збільшені кількості кроків виникає задача максимізації середнього виграшу окремого гравця, яка не має тривіального рішення. Це означає, що постійна протидія не гарантує максимального середнього виграшу.