ІІ працює краще, коли йому дозволено бути грубим

2

Штучний інтелект демонструє більш високу точність у вирішенні складних завдань, коли його проектують з імітацією хаотичності людського спілкування, включаючи перебивання, висловлювання не по черзі і навіть навмисну прямоту. Нещодавнє дослідження вчених Токійського електрокомунікаційного університету показує, що суворе дотримання формальних, почергових взаємодій перешкоджає вирішенню проблем ІІ, тоді як надання можливості для більш природного, іноді різкого обміну думками призводить до кращих результатів.

Проблема ввічливості

Сучасні моделі ІІ зазвичай дотримуються жорстких протоколів комунікації, послідовно обробляючи команди та відповідаючи лише за запитом. Це імітує ефективність комп’ютерів, але позбавлено хаотичної енергії людського діалогу. Реальні людські розмови рясніють перебиваннями, паузами та неоднозначними формулюваннями. Це дослідження ставить під сумнів припущення про те, що ефективність завжди є оптимальною, показуючи, що певний ступінь руйнування може фактично підвищити колективний інтелект.

Дослідники хотіли перевірити, чи підвищить надання ІІ-агентам «соціальних сигналів» – таких як здатність перебивати чи зберігати мовчання – їхню продуктивність. Співавтор дослідження, професор Юіті Сей, пояснює, що «існуючі багатоагентні системи часто здаються штучними, тому що їм не вистачає хаотичної динаміки людського спілкування у реальному часі». Мета полягала не просто в тому, щоб зробити ІІ більш людиноподібним, а в тому, щоб покращити його здатність приходити до точних висновків у складних дискусіях.

ІІ, заснований на особистості

Команда інтегрувала п’ять основних рис особистості (відкритість, сумлінність, екстраверсія, поступливість та невротизм) у великі мовні моделі (LLM). Це дозволило ІІ-агентам демонструвати різні стилі спілкування. Важливо, що LLM були перепрограмовані для обробки відповідей за пропозиціями, а не для генерації повних відповідей перед взаємодією, що забезпечило більш плавний та реактивний діалог.

Потім вони протестували три сценарії розмови: фіксований порядок виступів, динамічний порядок виступів та динамічний порядок виступів із дозволеними перебиваннями. В останньому сценарії було введено «коефіцієнт терміновості», який дозволяв ІІ втручатися, коли він виявляв помилки чи критичні моменти, незалежно від того, чия черга говорити. І навпаки, якщо коефіцієнт терміновості був низьким, ІІ залишався мовчазним, щоб уникнути непотрібної балаканини.

Результати: Грубість підвищує точність

Дослідники оцінили продуктивність, використовуючи стандарт Massive Multitask Language Understanding (MMLU), стандартизований тест ІІ на міркування. Результати були разючими.

  • У сценаріях, де один агент спочатку давав неправильну відповідь, точність зросла з 68,7% за фіксованого порядку до 79,2%, коли були дозволені перебивання.
  • Коли два агенти починали з неправильних відповідей, точність підскочила з 37,2% за фіксованого порядку до 49,5% при включених перебиваннях.

Ці результати показують, що дозвіл ІІ агресивно заперечувати один одного – навіть грубо – прискорює процес виправлення помилок та підвищує загальну точність. Це значне відхилення від традиційного дизайну ІІ, який віддає пріоритет ввічливості та ненав’язливості.

Наслідки для майбутнього

Професор Сей планує застосувати ці висновки до спільних ІІ систем, вивчаючи, як «цифрові особистості» можуть впливати на процес прийняття рішень у групових умовах. Дослідження показує, що у майбутніх взаємодіях між ІІ-агентами та людьми дискусії, засновані на особистості, включаючи можливість перебивати, можуть давати кращі результати, ніж суворо ввічливі, почергові обміни. Це дослідження кидає виклик усталеним уявленням про ефективну комунікацію, припускаючи, що іноді трохи тертя – це саме те, що потрібно для досягнення істини.