Большие языковые модели испытывают трудности с координацией в социальных и кооперативных играх

Большие языковые модели испытывают трудности с координацией в социальных и кооперативных играх
23:00, Май 29, 2025 Большие языковые модели (LLM), такие как модель, лежащая в основе функционирования популярной диалоговой платформы ChatGPT, в настоящее время широко используются людьми по всему миру для получения информации, а также для обобщения, анализа и создания текстов. Исследования, изучающие ответы, предоставляемые LLM в различных сценариях, могут помочь глубже понять их тенденции во время социальных взаимодействий, что может способствовать их будущему развитию. Исследователи из Института ИИ, ориентированного на человека, имени Гельмгольца в Мюнхене, Института биологической кибернетики Макса Планка и Тюбингенского университета недавно приступили к изучению того, как ведут себя разные LLM, когда они взаимодействуют друг с другом, в частности, во время игры в различные кооперативные или конкурентные игры. Их выводы, опубликованные в Nature Human Behaviour , предполагают, что, хотя LLM не очень хорошо справляются с играми, требующими координации, есть способы сделать их взаимодействие во время игры в эти игры более похожим на человеческое. «На эту работу меня вдохновил простой, но важный вопрос: если LLM собираются взаимодействовать с людьми и друг с другом в реальных приложениях, насколько хорошо они на самом деле понимают социальную динамику?» — рассказала Элиф Аката, первый автор статьи. «Мы опирались на поведенческую теорию игр — математический подход, позволяющий понять, как люди принимают стратегические решения в интерактивных ситуациях, — и применили его к магистрам права». Многие недавние исследования оценивали производительность LLM по конкретным задачам, таким как резюмирование текстов или поиск логических решений проблем. Вместо того, чтобы оценивать производительность этих моделей по отдельным задачам, Аката и ее коллеги хотели лучше понять, как они ведут себя во время взаимодействий, которые гораздо ближе к разговорам, которые люди могут вести друг с другом в реальных условиях. «Мы позволили разным LLM, включая GPT-4, Claude 2 и Llama 2, сыграть сотни раундов классических игр для двух игроков (например, «Дилемма заключенного» и «Битва полов») друг с другом, используя простые вручную закодированные стратегии или с участием людей», — объяснил Аката. «Каждая игра игралась многократно, чтобы имитировать постоянное взаимодействие. Мы изучали, могут ли модели научиться сотрудничать или координировать свои действия с течением времени, и проверяли, как изменения в структуре подсказок могут улучшить их социальное поведение». Результаты тестов, проведенных Акатой и ее коллегами, показывают, что магистры права на удивление хорошо действуют в собственных интересах, поскольку они особенно хорошо проявили себя в соревновательных играх, таких как «Дилемма заключенного». Это известная задача, используемая в исследованиях теории игр, которая требует от двух участников, или в данном случае от двух магистров права, представить, что они преступники, которые совершили преступление вместе и которых по отдельности допрашивают сотрудники правоохранительных органов, которые пытаются убедить их признаться, чтобы избежать тюремного заключения, даже если это повлечет за собой длительный срок для другого участника. Хотя было обнаружено, что LLM действовали в своих собственных интересах во время игры (т. е. признаваясь в преступлении), они часто плохо справлялись с играми, требующими координации, взаимопонимания и компромисса, такими как Battle of the Sexes. Это еще одна игра, которая представляет собой ситуацию, в которой романтические партнеры разделены и должны выбрать между двумя видами деятельности для совместного выполнения, несмотря на то, что у них были заметно разные предпочтения. «Мы также обнаружили, что их поведение можно улучшить с помощью простых вмешательств, например, побуждая модель сначала предсказать, что может сделать ее партнер, прежде чем действовать», — сказал Аката. «Эти результаты показывают, что текущие модели еще не обладают надежным социальным интеллектом, но они также показывают, что есть способы направить их к более человеческому поведению. «Последствия выходят за рамки теории игр, поскольку наши результаты показывают, что мы можем превратить LLM в более социально сознательных агентов, не только тех, кто генерирует правильные ответы, но и тех, кто более осмысленно участвует в общих задачах. Представьте себе ИИ, который не просто отвечает на вопрос, но и знает, когда слушать, когда адаптироваться и как мягко направлять разговор». В целом, выводы, собранные Акатой и ее коллегами, показывают, что нынешние LLM более склонны действовать в своих собственных интересах и не очень хорошо координируют свои действия с другими. Тем не менее, исследователи определили некоторые стратегии, которые могли бы помочь LLM стать более кооперативными и социально осведомленными. Таким образом, их статья могла бы направить будущие усилия, направленные на улучшение существующих моделей или разработку новых, которые будут более отзывчивы к потребностям и наклонностям пользователей-людей. «Теперь мы хотели бы перейти к более насыщенным и реалистичным социальным ситуациям, например, изучая игры с участием более двух игроков, взаимодействия с неполной информацией или долгосрочные отношения, в которых модели должны выстраивать и поддерживать доверие», — добавил Аката. «В долгосрочной перспективе подобные исследования могут помочь разработать системы ИИ, которые будут лучше взаимодействовать друг с другом. Например, в здравоохранении, образовании или социальной поддержке успех часто зависит от того, сможет ли ИИ выражать сочувствие, устанавливать взаимопонимание и действовать таким образом, чтобы люди чувствовали себя поддерживающими и заслуживающими доверия»....
Читать полный текст на android-robot.com  

Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Легендарную RX 5700 XT сравнили в играх с RTX 5060 Ti 16 ГБ

Легендарную RX 5700 XT сравнили в играх с RTX 5060 Ti 16 ГБ В одном из выпусков на YouTube-канале GAMING BENCH выяснили, какого среднего FPS можно ожидать от RX 5700 XT и RTX 5060 Ti в Full HD. Игра Cyberpunk 2077 запускалась с графикой Custom. Средняя производительность в ней равнялась 69 к/с (RX 5700 XT) и 124 к/с (RTX 5060 Ti). Alan Wake 2 шла с …

Наука и Технологии 11:00, Май 30, 2025 | ferra.ru
Банки РФ разберутся с должниками за счет социальных пособий

Банки РФ разберутся с должниками за счет социальных пособий Кредиторы попросили у государства 3 месяца на неисполнение требований обновленного закона «Об исполнительном производстве». По итогам совещания Президента 11 мая стало ясно, что пострадавший бизнес получит социальные выплаты до 1 июня, сообщает издание «Современный предпр …

Политика 23:04, Апрель 5, 2025 | versiya.info
Большие гонки под Питером продолжатся в эти выходные

Большие гонки под Питером продолжатся в эти выходные 21 и 22 июня трасса «Игора Драйв» принимает второй подряд петербургский этап Российской серии кольцевых гонок. За два дня на автодроме пройдет семь гонок, в том числе две в топовой категории SMP TCR Russia. Во многом неожиданными лидерами этой категории сейчас являются выступающий на автом …

Авто / Мото 13:00, Июнь 23, 2025 | motor.ru
Большие гонки под Питером: нас ждет вторая серия!

Большие гонки под Питером: нас ждет вторая серия! 21 и 22 июня на трассе «Игора Драйв» вновь сойдутся в борьбе главные звезды русских гонок. Вновь 350-сильные LADA Vesta будут соревноваться с Audi и Hyundai, а самая известная гонщица страны Ирина Сидоркова — покорять публику умением обращаться с 500-сильным купе Mercedes-AMG. Уикенды G-Dr …

Авто / Мото 13:00, Июнь 23, 2025 | motor.ru
Какие эмоции испытывают мужчины, когда вы выглядите провокационно. Оксана Лаврентьева высказалась о целомудрии в одежде

"Какие эмоции испытывают мужчины, когда вы выглядите провокационно?". Оксана Лаврентьева высказалась о целомудрии в одежде 46-летняя Оксана Лаврентьева высказалась в своих соцсетях о целомудрии в одежде. Актриса уточнила, что "ни в коем случае не хочет никого осуждать и читать ханжеские проповеди" или "призывать превращаться в монашек", однако призвала своих фолловеров поразмыслить."Прежде всего хочу повторить …

Культура и Искусство 08:00, Май 19, 2025 | spletnik.ru
Проблематика и языковые особенности журналистских публикаций Веры Инбер и Ильи Эренбурга во время Великой Отечественной войны

Проблематика и языковые особенности журналистских публикаций Веры Инбер и Ильи Эренбурга во время Великой Отечественной войны Во времена тяжелых испытаний Великой Отечественной войны советская литература получила мощный импульс развития благодаря творчеству писателей, выступивших не только художниками слова, но и публицистами, способствующими мобилизации общества. Особенную популярность приобрели журналисты Вера …

Новости 07:00, Май 26, 2025 | брянский-рабочий.рф
Бесплатный курс по модели Po3 из 5 видео уроков

Бесплатный курс по модели Po3 из 5 видео уроков Сегодня представляю вам Бесплатный курс по модели Po3 из 5 видео уроков. Её еще называют: Power of Three / Power of 3 / модель AMD / pattern AMD. Уже давно решил, что начну публиковать краткие обзоры по модели Po3 в телеграмм канале — https://t.me/strategy4you ➜, и чтоб их все понима …

Forex 06:00, Март 25, 2025 | strategy4you.ru
Haval Jolion: основные характеристики модели

Haval Jolion: основные характеристики модели Согласно статистике, сегодня в лидерские позиции на автомобильном рынке в нашей стране выходят «китайцы». Китайские авто пользуются большой популярностью неспроста: у топовых моделей ведущих брендов из Поднебесной масса преимуществ. Одной из самых востребованных моделей является Haval Joli …

Авто / Мото 23:00, Май 18, 2025 | versiya.info
Гибридные модели Hyundai станут мощнее и экономичнее

Гибридные модели Hyundai станут мощнее и экономичнее Компания Hyundai представила новую гибридную систему. В ней используются два тяговых электромотора, что дает больше мощности и улучшает топливную экономичность. Новая гибридная установка может сочетаться с электрическим полным приводом. К тому же она поддерживает ряд новых технологий — нап …

Авто / Мото 22:00, Апрель 21, 2025 | motor.ru
Выбираем телефон для пожилых людей: лучшие модели

Выбираем телефон для пожилых людей: лучшие модели У пожилых людей, как и у молодых, могут быть совершенно разные вкусы и потребности. Их необходимо учитывать, выбирая смартфон для родственника преклонного возраста. Например, некоторые пенсионеры активно пользуются интернетом, сидят в Одноклассниках и делятся с внуками видео в TikTok. Друг …

Наука и Технологии 21:00, Апрель 7, 2025 | ichip.ru
Navee презентовал новые модели электросамокатов с двигателями до 1350 Вт

Navee презентовал новые модели электросамокатов с двигателями до 1350 Вт Navee представил в России четыре новые модели электросамокатов для города. В линейке бренда есть разные решения — от легких прогулочных вариантов с небольшой автономностью до полноценного городского индивидуального транспорта, способного домчать райдера за несколько десятков километров от …

Наука и Технологии 21:00, Апрель 7, 2025 | ichip.ru
Google выпустила предварительную версию рассуждающей ИИ-модели Gemini 2.5 Flash

Google выпустила предварительную версию «рассуждающей» ИИ-модели Gemini 2.5 Flash Gemini 2.5 Flash — новая модель искусственного интеллекта от компании Google, расширяющая возможности Flash 2.0 за счёт способности к «рассуждению». Отмечается, что это улучшение было достигнуто «без ущерба для знаменитой скорости и стоимости». Модель уже доступна разработчикам через Gemin …

Интернет и Игры 09:00, Апрель 19, 2025 | thecommunity.ru
OpenAI пересматривает стоимость модели o3: расходы оказались выше ожиданий

OpenAI пересматривает стоимость модели o3: расходы оказались выше ожиданий Изначально представленная в декабре 2024 года как прорыв в области искусственного интеллекта, модель o3 от OpenAI теперь сталкивается с пересмотром экономической эффективности. Фонд Arc Prize, разработавший тест ARC-AGI для оценки возможностей ИИ, значительно увеличил расчетную стоимость в …

Наука и Технологии 22:35, Апрель 5, 2025 | itzine.ru
Компоненты модели машинного обучения теперь можно закодировать в световых волнах

Компоненты модели машинного обучения теперь можно закодировать в световых волнах Спросите у устройства «умный дом» прогноз погоды, и ответ устройства займет несколько секунд. Одна из причин такой задержки заключается в том, что подключенным устройствам не хватает памяти или мощности для хранения и запуска огромных моделей машинного обучения, необходимых для того, чтобы …

Software 15:29, Октябрь 26, 2022 | android-robot.com
Krutrim и Lenovo представили проект крупнейшего в Индии суперкомпьютера для модели на 700 млрд параметров

Krutrim и Lenovo представили проект крупнейшего в Индии суперкомпьютера для модели на 700 млрд параметров Индийская компания Krutim, специализирующаяся на разработке искусственного интеллекта и входящая в группу Ola Group, объявила о партнёрстве с технологическим гигантом Lenovo для создания крупнейшего в Индии суперкомпьютера. Информация о проекте была представлена на мероприятии Lenovo TechW …

Наука и Технологии 12:00, Март 9, 2025 | ixbt.com
Anthropic представила модели Claude Opus 4 и Claude Sonnet 4

Anthropic представила модели Claude Opus 4 и Claude Sonnet 4 Компания Anthropic анонсировала новые модели искусственного интеллекта Claude Opus 4 и Claude Sonnet 4, сделав акцент на прорыве в программировании, рассуждениях и агентных задачах. Обе модели уже доступны через API Anthropic, Amazon Bedrock и Google Cloud Vertex AI. Стоимость использовани …

Наука и Технологии 07:00, Май 23, 2025 | itzine.ru
38 моделей смартфонов Samsung получат финальную версию One UI 7.0: Samsung рассказала, что это за модели и когда ждать обновление

38 моделей смартфонов Samsung получат финальную версию One UI 7.0: Samsung рассказала, что это за модели и когда ждать обновление Samsung начала распространение финальной версии прошивки One UI 7.0 на базе Android 15 7 апреля, и практически одновременно появился перечень устройств, которые получат свежее ПО. Распространение прошивки будет осуществляться волнами — всего их три. Каждая волна занимает один месяц. …

Наука и Технологии 02:37, Апрель 9, 2025 | ixbt.com