CTC 教育サービス
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes
前回に続いて、2025年に公開された論文「CoDA: Agentic Systems for Collaborative Data Visualization」を紹介していきます。今回は、CoDAの評価結果を紹介します。
冒頭の論文では、既存の類似システム(MatplotAgent、VisPath、CoML4VIS)とCoDAの性能比較を行っています。それぞれのシステムの詳しい説明は割愛しますが、比較結果は図1のようにまとめられます。

図1 CoDAと類似システムの性能比較結果(論文より抜粋)
ここでは、それぞれのシステムで使用するLLMは、gemini-2.5-proに統一してあり、MatplotBenchとQwen Code Interpreterの2種類のベンチマークに対して、次の3種類の評価値が示されています。
また、ベンチマークをMatplotBenchに限定して、使用するLLMを変えた場合の比較結果は、図2のようになります。

図2 使用するLLMを変更した場合の比較結果(論文より抜粋)
図1と図2を見ると、ベンチマークの種類やLLMの種類にかかわらず、OSの値は、CoDAが最も良い結果になっています。ここからも、第218回の記事で触れた「理解(Understanding)」「計画(Planning)」「生成(Generation)」「自己反省(Self-Reflection)」の4つのフェーズによる改善ループの効果が理解できます。
ただし、サブエージェントの数が増えて改善ループの処理が複雑になると、画像が完成するまでのLLMの呼び出し回数や入出力トークンは増加して、実行効率(実行コストや実行時間)の点では不利になる恐れがあります。図3は、LLM呼び出しの回数と入出力トークンの総数を MatlibBenchに含まれるテストケース全体での平均値として計測した結果になります。

図3 使用するトークン数の比較(論文より抜粋)
この結果では、CoDAは、MatplotAgentよりは効率的ですが、VisPath、CoML4VISよりは効率が下がることがわかります。このあたりは、最終的な出力品質と効率のトレードオフと考えられるでしょう。
また、CoDAは、8種類のサブエージェントからなるシステムですが、それぞれのサブエージェントが最終的な画像の品質にどの程度の寄与があるのかも気になるかもしれません。論文の中では、「評価・再生成のループ」「Global TODO リスト」「Search Agent」について、それぞれの効果を評価した結果が図4のようにまとめられています。

図4 「(a) 評価・再生成ループ」「(b) Global TODOリスト」「(c) Search Agent」の効果(論文より抜粋)
まず、「(a) 評価・再生成ループ」については、このループを5回繰り返した際に、それぞれの段階での評価値(テストケース全体での平均値)の変化を示しています。この結果を見ると、3回程度の繰り返しは意味がありそうですが、それ以上は目立った効果がないように読み取れます。「(b) Global TODOリスト」は、前回の記事で紹介した、「Query Analyzerの出力」に含まれる【全体のToDoリスト】部分の効果を示します。Query Analyzerの出力からこの項目を取り除いた場合に、評価値がどのように変化するかを示しています。この結果では、Golbal TODOリストを取り除くと、ERPとOSが大きく減少することがわかります。
最後に、「(c) Search Agent」は、Search Agentを使用しなかった場合の変化を示します。この例では、Search Agentを取り除くと、EPRとOSは減少していますが、一方、VSR(出力画像の品質)は増加するという結果になっています。サンプルコードを検索することで、コードの実行に失敗する割合は減少するかわりに、既存のコードに引きづられて、テストケースに固有の表現がしづらくなるのかも知れません。
今回は、2025年に公開された論文「CoDA: Agentic Systems for Collaborative Data Visualization」について、ベンチマークによる評価結果を紹介しました。
次回からは、GoogleのデータセンターサーバーにおけるSmartNICの活用に関する話題をお届けします。
Disclaimer:この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes