Лекція 5. Однорідність та неоднорідність колективу агентів.
1. Поняття однорідності та неоднорідності.
В повністю однорідному колективі всі агенти мають однакову цільову функцію та однакові можливості по
сприйняттю станів середовища (сенсорна система: однаковий набір давачів)
навчанню найкращій поведінці (блок прийняття рішення) та
реалізації прийнятих рішень (блок реалізації прийнятих рішень).
Неоднорідність колективу можна розглядати на двох рівнях:
Різні цільові функції агентів (різне призначення агентів колективу), яким відповідають різні архітектури (способи побудови агентів) > функціональна неоднорідність.
Різні типи (можливості) блоків в рамках однакової архітектури агента з однаковою цільовою функцію (наприклад, різні блоки прийняття рішення: різні методи самонавчання) > параметрична неоднорідність.
Однорідні та неоднорідні колективи володіють деякими протилежними системними властивостями. Порівняльний аналіз цих властивостей дає змогу визначити за яких обставин який колектив (однорідний чи неоднорідний) найбільш вигідно обрати для вирішення поставленої задачі.
2. Адаптивне управління з механізмом наслідування.
Адаптивне управління з механізмом наслідування можна розглядати як модель колективної поведінки для дослідження оптимального співвідношення однорідності та неоднорідності. Разом з адаптивним виділяють наступні три основні способи управління:
програмне управління (блок управління має набір детальних обов’язкових для виконання інструкцій – програм поведінки по досягненню потрібної мети), застосування: детерміновані (прості) середовища;
рефлексивне управління (блок управління “провокує” об’єкт управління на виконання певних дій (наприклад, шляхом дезінформації)), застосування: конфліктні ситуації;
адаптивне управління (поведінка об’єкту управління (середовища) досліджується шляхом масових спроб, за рахунок чого виключається невизначеність ситуації), застосування: недетерміновані (складні) середовища.
Приклад адаптивного управління. Адаптивне управління з механізмом наслідування (варіант).
Розглянемо N агентів, які розміщенні в середовищі E. В процесі ітераційної взаємодії з середовищем агенти одночасно в кожному такті взаємодії реалізують кожний по одній дії з набору D={d1,d2,…} усіх доступних для них дій, формуючи в такий спосіб колективну дію. Після цього кожний агент отримує відгук середовища ut,i,i=1,…,N (значення функції оцінки, reward function) і пов’язує його з обраною в цьому такті дією dkt,i –(dkt,i, ut,i). При цьому значення {ut,i} можуть бути різними, наприклад, в залежності від розташування i-го агента в середовищі. Модель інформаційної зв’язності – випадкова парна взаємодія: в кожному такті агенти випадковим чином розбиваються на пари, в яких відбувається обмін значеннями (dkt,i, ut,i). Таким чином кожний агент в кожному такті взаємодії окрім інформації про свою дію та її успішність додатково отримує інформацію про дію та успішність цієї дії іншого випадково обраного агента. Цільова функція окремого агента ?i(u)– максимізувати свій сумарний виграш (?i(u) = ?ut,i). Цільова функція колективу визначається у вигляді суми біжучих значень цільових функцій агентів (WUF = ??i(u)).
Кожний агент (Agi) в своїй поведінці керується двома правилами:
Якщо реалізована мною дія принесла більший виграш ніж виграш іншого агента, то повторити свою дію.
Інакше (якщо мій виграш менше, то)
- з ймовірністю p1 обрати наступну дію випадково,
- з ймовірністю p2 повторити дію іншого агента.
або те саме в іншому вигляді:
Якщо ut,i > ut,j, i(j, то повторити свою успішну дію dkt+1,i = dkt,i.
Якщо ut,i < ut,j, i(j, то
- з ймовірністю p1 випадково обрати будь-яку дію з набору доступних дій D,
- з ймовірністю p2 повторити дію іншого агента dkt+1,i = dkt,j.
При цьому p1 + p2 = 1. Тобто кожний агент з ймовірністю p2 наслідує інших агентів, а з ймовірністю p1 діє «самостійно», обираючи свою дію випадково. Т.ч. "успішні" агенти будуть зберігати свою дію на довший час, а "невдахи" будуть змінювати дії, наслідуючи "успішних" агентів. В такий спосіб відбувається пристосування (адаптація) колективу до середовища.
3. Гнучкість та цілеспрямованість колективної поведінки.
Однорідність можна розглядати, як потенційну здатність кожного агента виконувати будь яку функцію (дію) з усіх можливих (доступних) в даному середовищі функцій (дій), а неоднорідність – як деякий біжучій розподіл агентів по різним функціям (діям). МКП з адаптивним управлінням дозволяє кількісно та якісно дослідити динаміку співвідношення однорідності та неоднорідності колективу. При цьому однорідність відображається у гнучкість КП, а неоднорідність – у цілеспрямованість КП.
Властивість
Агент
Колектив
Дія

p1
випадковість
індивідуальна свобода дій (однорідність, універсальність, самостійність)
гнучкість КП
розширює діапазонпошуку ефективної КП

p2
наслідування
залежність від інших агентів (неоднорідність, спеціалізованість, колективізм)
цілеспря-мованість КП
підвищує рівеньефективності КП

Пошук ефективної КП (дослідження середовища) потребує деякого часу (це плата за нестачу інформації про середовище). Якщо p1 > p2 (випадковість переважає наслідування), то цей пошук займає мало часу, але і рівень ефективності знайденої КП буде невисоким. В протилежному випадку (p1 < p2) рівень досягнутої ефективності буде високим, але пошук відповідної КП займе багато часу.
Припустимо, що колектив досягнув деякого оптимального розподілу функцій між агентами, який забезпечує максимум ефективності КП, тобто досягнув граничного рівня спеціалізації для біжучих характеристик середовища. Але у випадку зміни цих характеристик цілеспрямована зміна досягнутого розподілу функцій може тривати неприпустимо довго. Тому оптимальне управління в деяких випадках є невигідним: колектив не встигає пристосуватись до нових змін у середовищі.
Зміни у середовищі викликають потребу виконувати новий пошук ефективної КП. Якщо середовище змінюється швидко, то довгий пошук (коли p1 < p2) є недоцільним. Якщо середовище змінюється повільно, то недоцільним буде швидкий пошук (коли p1 > p2).
Висновок: існує деяке оптимальне співвідношення між індивідуальною свободою дій та залежністю від інших агентів (тобто між однорідністю і неоднорідністю колективу).

4. Приклад моделі колективної поведінки з адаптивним управлінням.
Розглянемо модель колективної поведінки (МКП), в якій біжучий сумарний виграш агента дорівнює його "життєвій енергії". Тобто виграшні дії збільшують енергію агента, а програшні зменшують. При цьому зміна дії на іншу відбирає в агента деяку частку енергії (тобто зміна поведінки потребує енергетичних затрат). Якщо біжучий рівень енергії Si,t стає меншим за S1, то агент вмирає, а якщо рівень енергії стає більшим за S2, то агент поділяється на двох нових агентів з енергією Si,t/2.
Si,t < S1 ( Ai((, i=1,…,N(t), t=1,…,T
Si,t > S2 ( Ai( Ai(Si,t/2), Aj(Si,t/2), i(j, i,j=1,…,N(t), t=1,…,T
Тобто ефективність колективної поведінки відображається у вигляді чисельності колективу. При цьому вкрай низька ефективність призводить до зникнення (загибелі) колективу.
а) спеціалізований колектив (p1 < p2)
б) менш спеціалізований колектив (p1 ( p2)
в) неспеціалізований колектив (p1 > p2)
Висновок: Спеціалізований колектив з великим часом адаптації (пошуку ефективної КП) легко впорався з невеликими по інтенсивності протидіями середовища (10%, 30%), однак загинув, коли протидія раптово і сильно зросла (70%). Менш спеціалізовані колективи за рахунок більших можливостей до адаптації впоралися з сильною протидією середовища. Т.ч. якщо нас цікавить ефективність КП на малому проміжку часу T, то перевага на боці неоднорідних (спеціалізованих) колективів, якщо T ( (, то перевага віддається однорідним (неспеціалізованим) колективам.
5. Спеціалізація (формування груп взаємодоповнюючих стратегій).
Ускладнити модель колективної поведінки з адаптивним управлінням можна таким правилом: ті функції (дії), які агент виконує дуже рідко або взагалі не виконує, виключаються з множини всіх доступних для нього дій (тобто з часом агент втрачає здатність виконувати "невживані" ним дії) ( реалізується деяка залежність алфавіту (набору) дій агента від часу Di ( Di(t).
Таким чином можна реалізувати процес формування груп взаємодоповнюючих стратегій (функцій): разом з наслідуванням в процесі випадкового пошуку можуть знаходитись і закріплюватись не подібні, а доповнюючи одна одну дії, тобто такі дії, які підсилюють діяльність інших агентів і колективу в цілому (розподілення взаємодоповнюючих функцій > функціональна емерджентність (У.Ешбі)).
Цей підхід можна застосувати при вирішенні задач в недоступному динамічному середовищі > в ньому розміщується однорідний колектив, який з часом самостійно знаходить найкраще для цього середовища розбиття агентів по групам взаємодоповнюючих стратегій (функцій).