Roblox Studio все чаще становится испытательным полигоном для агентивных ИИ-помощников, призванных ускорить создание игр. Хотя эти инструменты уже умеют писать скрипты, вставлять ассеты и модифицировать окружение, оценить их реальную производительность в условиях разработки было сложно. OpenGameEval призван решить эту проблему, представляя нативную для Roblox Studio платформу для оценки ИИ-помощников в реалистичных условиях.
Разработанный Титианем Чжаном, Картиком Айяром, Менгшей Сунь и Линн Гонг, OpenGameEval позиционируется как первая система оценки, построенная непосредственно вокруг рабочих процессов Roblox Studio. Вместо того чтобы изолировать фрагменты кода или полагаться на неконтекстные промпты, он запускает ИИ-модели внутри симулированных сессий редактирования и игры, которые максимально приближены к реальной работе создателей.
Почему традиционные бенчмарки не подходят для Roblox
Большинство существующих ИИ-бенчмарков фокусируются на узких задачах кодирования с четко определенными входами и выходами. Разработка в Roblox редко соответствует этой модели. Игры создаются в постоянных 3D-мирах, где скрипты взаимодействуют с иерархиями объектов, многопользовательской сетевой игрой и границами клиента-сервера. Изменения, внесенные в одну часть проекта, часто зависят от контекста, разбросанного по нескольким скриптам и экземплярам.
OpenGameEval был создан в ответ на эти ограничения. Его цель — проверить, способен ли ИИ-помощник анализировать живую среду Roblox, понимать существующую логику и вносить изменения, которые будут работать при фактическом запуске игры. Такой подход смещает оценку от теоретической корректности к практической полезности для создателей.
Подробнее о фреймворке OpenGameEval
По своей сути, OpenGameEval воспроизводит среду разработки Roblox Studio воспроизводимым образом. Каждая оценка симулирует поведение как во время редактирования, так и во время игры, гарантируя, что физика, сетевые взаимодействия и многопользовательские взаимодействия ведут себя точно так же, как в реальном проекте. Это позволяет оценщикам наблюдать, как изменения, внесенные ИИ-помощником, влияют на проект после его запуска, а не только на то, компилируется ли код.
Фреймворк также включает симуляцию ввода, которая позволяет запускать действия игрока, такие как движение, нажатия кнопок и изменения камеры, во время тестов. Это особенно важно для оценки функций, которые выявляют проблемы только при взаимодействии. Вся эта функциональность доступна через унифицированный API, что упрощает для исследовательских групп сравнение различных больших языковых моделей на одном и том же наборе задач.
Тестирование реальных сценариев разработки, а не просто фрагментов кода
Набор тестовых данных OpenGameEval в настоящее время включает 47 специально разработанных тестовых случаев. Каждый из них основан на распространенных задачах разработки в Roblox, включая игровую механику, настройку окружения, анимацию, пользовательские интерфейсы и звук. Эти сценарии создаются и проверяются экспертами предметной области, чтобы гарантировать их соответствие реальным рабочим процессам создателей.
В отличие от традиционных задач по кодированию, эти тесты являются комплексными. Успешный ИИ-помощник должен находить релевантные скрипты, интерпретировать существующую логику, решать, куда поместить новый код, и вносить изменения, которые работают как на стороне клиента, так и на стороне сервера. Оценка осуществляется с помощью исполняемых модульных тестов и стандартных метрик, таких как pass@k, что позволяет воспроизводить и сравнивать результаты между моделями.
Как контекст меняет сложность
Одной из отличительных особенностей OpenGameEval является его ориентация на контекстуальные вариации. Один и тот же промпт может быть оценен в нескольких средах, различающихся по структуре и сложности. Например, задача, связанная с четырехсторонним светофором, может быть протестирована в пустом файле места, в населенной пригородной сцене или в конфигурации, включающей как дорожные, так и пешеходные сигналы. Каждое изменение заставляет ИИ-помощника адаптировать свое рассуждение на основе того, что уже присутствует в проекте.
Более сложные задачи, такие как реализация системы регенерации здоровья, требуют от модели отслеживания логики урона по скриптам, определения, следует ли вносить изменения на сервере или клиенте, и обеспечения правильной работы таймингов и репликации. Эти сценарии разработаны для выявления того, способен ли ИИ-помощник поддерживать контекст на протяжении нескольких шагов, а не полагаться на поверхностное сопоставление с образцом.
Ранние результаты подчеркивают текущие ограничения
Первоначальные результаты OpenGameEval указывают на явный разрыв в текущих возможностях ИИ. Модели, как правило, хорошо справляются с атомарными задачами, которые включают прямое манипулирование одним экземпляром или свойством. Действия, такие как изменение силы прыжка игрока или настройка эффекта частиц, часто выполняются с высокой надежностью.
Производительность резко падает, когда задачи требуют более глубокого контекстуального рассуждения. Сценарии, включающие скоординированные изменения между скриптами, тщательную фильтрацию релевантных объектов или понимание многопользовательского поведения, по-прежнему демонстрируют низкие показатели успеха. Эти результаты подчеркивают, сколько места для улучшения остается, прежде чем ИИ-помощники смогут самостоятельно надежно справляться со сложными задачами разработки в Roblox.
Признаки стабильного прогресса
Несмотря на эти трудности, OpenGameEval уже зафиксировал признаки улучшения по мере развития моделей. В одной задаче, связанной с изменением цвета логотипа Roblox, ранние модели потерпели неудачу, поскольку объект не был явно назван. Более поздние оценки показывают, что некоторые модели успешно идентифицируют правильный объект, проверяя его свойства и положение в иерархии экземпляров, а не полагаясь исключительно на соглашения об именовании.
Эти постепенные успехи свидетельствуют о том, что ИИ-помощники медленно улучшают структурное рассуждение в игровых средах, даже если более широкое контекстуальное понимание остается непоследовательным.
Что OpenGameEval означает для создателей и исследователей
OpenGameEval предназначен для обслуживания как создателей Roblox, так и более широкого сообщества исследователей ИИ. Публичная таблица лидеров обеспечивает наглядность того, как различные модели работают в таких категориях, как генерация кода и использование инструментов. Для исследователей фреймворк предоставляет стандартизированный способ проведения воспроизводимых оценок в среде реального игрового движка.
Заглядывая в будущее, команда OpenGameEval планирует расширить набор данных, усовершенствовать инструменты оценки и учесть отзывы сообщества создателей. Долгосрочная цель — создать общую точку отсчета для измерения прогресса в области агентивного ИИ для разработки игр, включая будущие приложения, связанные с экономикой создателей в стиле web3.
Ознакомьтесь с подарочными картами Roblox на Amazon здесь.
Узнайте о других популярных проектах Roblox здесь:
Часто задаваемые вопросы (FAQ)
Что такое OpenGameEval?
OpenGameEval — это фреймворк для оценки и бенчмарк с открытым исходным кодом, предназначенный для тестирования ИИ-помощников непосредственно в Roblox Studio. Он измеряет, насколько хорошо модели справляются с реальными задачами разработки, а не с изолированными проблемами кодирования.
Чем OpenGameEval отличается от других ИИ-бенчмарков?
В отличие от традиционных бенчмарков, OpenGameEval проводит оценки в симулированной среде Roblox Studio. Это позволяет тестировать контекстуальное рассуждение, многопользовательское поведение и стейтфул-взаимодействия, которые распространены в разработке игр.
Какие типы задач включает OpenGameEval?
Бенчмарк включает задачи, связанные с игровой механикой, скриптингом, построением окружения, анимацией, пользовательскими интерфейсами и звуком. Многие задачи требуют многошагового рассуждения по нескольким скриптам и объектам.
Кто может использовать OpenGameEval?
Фреймворк имеет открытый исходный код и предназначен для исследователей ИИ, разработчиков инструментов и команд, создающих или оценивающих ИИ-помощников для Roblox Studio.
Почему OpenGameEval важен для создателей Roblox?
Предоставляя прозрачные данные о производительности и реалистичные оценки, OpenGameEval помогает создателям понять сильные и слабые стороны ИИ-помощников и отслеживать, как эти инструменты улучшаются с течением времени.







