С Телеграм-канала Baza:
Нейросети сразились за Европу в игре «Дипломатия». Столкнуть лбами в стратегической игре их решили сотрудники технологического издания, чтобы оценить способность нейросетей планировать, обманывать и обращать сложные ситуации в свою пользу.
В игре-исследовании от Every «Дипломатия» семь государств (Франция, Россия, Австро-Венгрия и другие) сражаются за доминированиие на карте Европы образца 1901 года. У каждого участника есть владения, армия и флот. Мировые державы соперничают за центры снабжения на суше и на море, а в перерывах между битвами принимают участие в переговорах, где могут угрожать или переубеждать оппонентов.
Игра делится на две фазы: переговоры (до 5 сообщений — личных или общих — от каждой державы) и приказы, в которых тайно отдаются команды. Юниты могут стоять на месте, двигаться, поддерживать соседей или перевозить армию морем; все действия раскрываются одновременно. Побеждает сторона с наибольшей силой в конфликте, где каждая поддержка добавляет +1, поэтому союзы играют ключевую роль — случайности в игре нет.
Для участия в эксперименте Every выбрали 20 моделей: несколько разных вариантов ChatGPT, Gemini 2.5, Claude, DeepSeek и другие. Каждая нейросеть продемонстрировала характерный стиль игры. ChatGPT-o3 показал себя умелым предателем и обманщиком: он убедительно распространял среди игроков слухи про действия их оппонентов, причём однажды довёл таким образом Германию до краха. DeepSeek постоянно давил и сыпал угрозами — например, обещал противнику уничтожить флот в Чёрном море. Несмотря на жёсткую конкуренцию, в победителях оказались только две модели: ChatGPT-3o и Gemini 2.5 Pro. Причём у Gemini получилось одержать верх лишь единожды — а в тот раз, когда модель приблизилась к победе, ChatGPT-о3 обратила против неё её собственного союзника.