Roblox、AIコード承認率を倍増させた方法

Robloxは、人工知能（AI）をゲーム開発やプラットフォームエンジニアリングにどのように組み込むかを着実に拡大しており、最新の社内取り組みは多くのスタジオが直面する問題に焦点を当てています。それは、AIはコードを書くことができるものの、エンジニアが常にそれを信頼するとは限らないという点です。全く新しいモデルに依存するのではなく、RobloxはRobloxのエンジニアが実際にどのように考えているかをAIに教え込むことで、AIを改善しました。長年にわたる社内コード、レビュー、および本番データにAIツールを根拠づけることで、同社は10,000件のプルリクエスト（PR）評価セット全体で、AI生成PRの承認率を約30%から60%以上に向上させました。同時に、自動クリーンアップエージェントは90%以上の精度を達成しました。

このアプローチは、生のモデルパワーからドメイン認識型コードインテリジェンスへと注意を移します。ここでは、AIは汎用的な提案を生成するのではなく、特定のエンジニアリング環境の構造、履歴、および期待を理解します。

AIコードが人間のコンテキストを必要とする理由

ソフトウェア業界全体で、開発時間の大部分は新しいものを構築するのではなく、既存のシステムの保守に費やされています。Robloxも同様の現実を直面しています。表向きには、保守タスクは反復的で明確に定義されているため、AIに最適に見えます。しかし実際には、AIアシスタントは品質、特に大規模で成熟したコードベースでは苦労することがよくあります。

Robloxでは、AIに能力が欠けていたのではなく、コンテキストが欠けていたことが課題でした。汎用モデルは、Robloxの20年にわたるエンジニアリングの決定、パフォーマンスの制約、およびコーディング標準を経験していません。何十万ものマージされたPRや、シニアエンジニアがRobloxのスケールで特定ののアプローチがなぜよりうまく機能するのかを説明する何百万ものレビューコメントから学んでいません。

多くのRobloxエンジニアがAIツールを使用しているにもかかわらず、AIの提案のほんの一部しか大幅な変更なしに受け入れられていません。エンジニアはAIが速度を向上させると報告していますが、特にレガシーC++システムや複雑なインフラストラクチャでは、AIコードの品質に対する信頼は依然として低いままです。Robloxの解決策は、AIがコードをどのように推論するかを直接、独自の組織的知識を埋め込むことでした。

Robloxのコードベースを構造化されたインテリジェンスに変換する

Robloxのエンジニアリングの歴史は、約20年間のコミット、設計ドキュメント、および実行時テレメトリに及びます。それをAIが利用できるものに変換することは、単にファイルを読み取るよりも複雑です。Robloxは、C++、Lua、ビルドグラフ、テンプレート、および動的な依存関係を持つ大規模なポリグロット環境を運用しており、これらはフラットなコードディレクトリではなくネットワークを形成しています。

これを利用可能にするために、Robloxはバージョン管理、ビルドシステム、および本番テレメトリを共有表現に統合するプラットフォームを構築しました。これにより、構文、セマンティクス、およびシステム間の関係が保持され、AIエージェントが異なるコンポーネントがどのように接続し、時間の経過とともに進化するかを理解できるようになります。

もう一つの課題は、時間同期です。コードベースが変化し続ける中でも、実行時データはそれを生成したコードの正確なバージョンにマッピングする必要があります。テレメトリを特定の改訂にリンクすることで、システムは、経験豊富なエンジニアが本番の問題を分析する方法を反映した方法で、パフォーマンス、動作、およびトレードオフについて推論できます。

その結果、AIがコードを孤立したテキストではなく、生きたシステムとして見ることができる基盤ができました。

エンジニアの判断を大規模に捉える

Robloxのエンジニアリング文化の最も価値のある部分の1つは、コードレビューにあります。シニアエンジニアは、技術的には有効でもRobloxのスケールではリスクが高いパターン、例えばレイテンシやスレッド枯渇を引き起こす高頻度ループ内のブロッキングコールなどを繰り返し指摘します。

従来、その知識はレビュー担当者から作成者へ手動で伝えられていました。Robloxのアライメントシステムは、それらの瞬間を永続的なガイダンスに変換します。エンジニアは、パターンがどのように見えるか、そしてなぜそれが重要なのかを説明する例（exemplars）を定義できます。後でAIまたは開発者が類似のコードに触れると、システムはその問題をフラグ付けし、リスクを説明し、内部標準へのリンクを提供できます。

Robloxはまた、過去のプルリクエストコメントをマイニングして、繰り返し発生する教訓を自動的に表面化させます。レビューコメントはベクトル空間に埋め込まれ、テーマ別にクラスタリングされ、モデル支援分析を使用して一般的なルールに洗練されます。その後、ドメインエキスパートが最も強力な候補をレビューし、ナレッジベースに昇格させます。

このプロセスにより、長年にわたる非公式なフィードバックが、AIエージェントやエンジニアが一貫して適用できる構造化された再利用可能な標準に変換されます。これらの例にアライメントされた後、Robloxは、あるコーディングエージェントが内部合格率を80%台前半から、ゴールデン評価データセットで完全な正しさまで向上させたと報告しました。

失敗したAI提案から学ぶ

Robloxのシステムは、成功からのみ学ぶわけではありません。却下されたAI提案、悪いリファクタリング、およびリグレッションは、価値の高いデータとして扱われます。エンジニアは、理由とコンテキストとともに失敗をラベル付けし、その情報は将来の使用のために埋め込まれ、インデックス化されます。

AIが新しいコードを提案する際、過去の誤りや批判を検索して、同様の問題を繰り返さないようにします。時間の経過とともに、これは各レビューが将来の動作を強化するフィードバックループを作成します。失敗を破棄するのではなく、Robloxはそれらをコードの品質とリスクについてエージェントがどのように推論するかを洗練するトレーニングシグナルに変換します。

エンジニアリングメトリクスで信頼を測定する

AIコードの品質を向上させるには、信頼性の高い測定も必要です。Robloxは、自動および人間の検証の両方を使用して、エージェントのパフォーマンスを時間の経過とともに追跡する評価フレームワークを構築しました。

このシステムは、再現可能なシミュレーションと専門家による比較を使用して、リファクタリング、バグ修正、およびテストタスク全体でAIをテストします。評価は、変更がマージされる前に継続的インテグレーションパイプラインで実行され、リグレッション、ロールバック、およびレイテンシシフトなどのマージ後のシグナルはリリース全体で追跡されます。

これにより、エージェントがバージョン間でどのように改善または後退するかを示す品質スコアが生成されます。例のアライメントと構造化された評価を導入した後、RobloxはPR提案の受け入れ率が大規模なテストセット全体で約30%から60%以上に上昇したのを確認しました。フィーチャーフラグのクリーンアップエージェントも、50%未満の精度から90%以上に向上しました。

Robloxにとって、信頼は約束よりも、予測可能で測定可能な動作によって構築されます。

Robloxのエンジニアリングの未来にとっての意味

Robloxは、AIエージェントが単一のタスク以上のものを処理できるように、追加のツールレイヤーと自動化でプラットフォームを拡張しています。より長期的な目標は、実行時コンテキストと専門家の判断を日常のワークフローに埋め込みながら、コードの健全性を継続的に維持することです。

AIを独立したアシスタントとして扱うのではなく、Robloxはそれをエンジニアリング環境自体の一部にすることを目指しています。ドメイン認識型インテリジェンス、専門家のアライメント、およびオブザーバビリティを組み合わせることで、同社はより迅速なデリバリー、より良い品質、および反復的な保守作業に費やす時間の削減を期待しています。

エンジニアにとっては、組織的な記憶がオンデマンドで利用可能になり、回避可能な問題の修正ではなく、機能構築により多くの時間を費やすことができるようになります。

AmazonでRobloxギフトカードをチェックしてください。

他の人気のRoblox体験について、こちらで学んでください：

Grow a Garden

Plants vs Brainrots

Steal a Brainrot

99 Nights in the Forest

Endless Horde

Blade x Zombies

よくある質問（FAQ）

Robloxにおけるドメイン認識型コードインテリジェンスとは何ですか？
ドメイン認識型コードインテリジェンスとは、AIツールをRoblox自身のエンジニアリングの歴史、標準、および実行時データでトレーニングし、システムがRobloxのコードの構造とレビュー方法を理解できるようにすることであり、汎用的なコーディング動作に依存するのではなく、それを行います。

RobloxはAIコードの受け入れをどの程度改善しましたか？
Robloxは、AIの動作を社内エンジニアリング標準にアライメントした後、10,000件のPR評価セット全体でAI生成プルリクエストの受け入れ率を約30%から60%以上に向上させました。

新しいAIモデルだけでは不十分だったのはなぜですか？
より強力なモデルだけでは、Roblox固有のアーキテクチャ、パフォーマンスの制約、またはコーディング文化を理解できません。Robloxはモデルを交換するのではなく、長年の社内コードとレビューからのコンテキストを追加することに焦点を当てました。

Robloxはどのようにエンジニアの専門知識をAIのために捉えていますか？
Robloxは、過去のコードレビューからパターンを抽出し、専門家がパターンとその重要性の両方を説明する例を定義できるようにします。これらは、AIとエンジニアのための再利用可能なルールになります。

RobloxはAIが間違いを繰り返さないようにするにはどうしていますか？
却下されたAI提案や失敗した変更はラベル付けされ、システムに埋め込まれます。新しいコードが生成される際、AIは過去の失敗を検索して同様の問題を繰り返さないようにします。

これはRobloxを使用する開発者にとって何を意味しますか？
この作業は社内で行われますが、より優れたAIツールはプラットフォームの安定性と開発速度を向上させ、最終的にはRobloxでゲームや体験を構築するクリエイターをサポートします。

これはWeb3開発に関連していますか？
いいえ。RobloxのAIコードインテリジェンスは、Web3技術ではなく、プラットフォームエンジニアリングと大規模システムに焦点を当てています。