まるで”美的センス”を持つかのようなAI評価システムの登場
「AIにウェブページを作ってもらったけど、なんだか使いにくいなぁ」
—そんな経験、ありませんか?
動くことは動くけれど、ボタンの配置が変だったり、色の組み合わせがちぐはぐだったり、アニメーションがぎこちなかったり。
つまり、機能はするけれど”センス”がないのです。
この問題に真正面から取り組んだのが、中国のテクノロジー大手・テンセント(Tencent)です。
彼らは「AIが作るコードを、見た目やユーザー体験まで含めて正しく評価するにはどうすればいいのか?」という難題に挑み、革新的な評価システム「ArtifactsBench」を開発しました。
従来のテストでは見えない”美しさ”
これまでのAI評価は、主に「コードが動くかどうか」に焦点を当てていました。
プログラムが正しく実行されれば合格、エラーが出れば不合格—それだけでした。
しかし、現代のユーザーが求めているのは、単に「動く」だけのアプリやサイトではありません。
見た目が美しく、使いやすく、快適な体験を提供するものです。
テンセントの研究チームが気づいたのは、従来の評価方法が「視覚的な品質やインタラクティブな完成度」を完全に見落としていたことでした。
まさに、ここに新しい評価基準が必要だったのです。
AIが”美術評論家”になる時代
そこでテンセントが開発したのが、ArtifactsBench という画期的なシステムです。
まず、AIには 1,800 以上の多様な課題が与えられます。
データ可視化、ウェブアプリ、インタラクティブなミニゲームの作成など、幅広いタスクです。
AIがコードを生成すると、ArtifactsBench が動き出します。
安全な環境でそのコードを実際に動かし、時系列でスクリーンショットを撮影。
アニメーション、ボタンクリック後の状態変化、その他の動的な反応まで、すべてをチェックします。
そして最後に、元のリクエスト、AIが書いたコード、撮影したスクリーンショットのすべてを、マルチモーダルLLM(MLLM)に渡して”審査”してもらうのです。
この審査員AIは、単なる感想ではなく、10の異なる評価軸に沿った詳細なチェックリストを使用。
機能性、ユーザー体験、さらには美的品質まで、厳正に採点します。
人間の目と 94.4% 一致する”AI審査員”
「でも、AIの審査員に本当にセンスがあるの?」
—そんな疑問も当然です。
しかし結果は驚異的でした。
ArtifactsBench の評価は、人間が実際に投票する「WebDev Arena」という権威あるプラットフォームの結果と、94.4% の一致率を示したのです。
これは、従来の自動評価システムの 69.4% を大幅に上回る精度です。
さらに、プロの開発者との意見一致率も 90% を超えました。
まさに、AIが”美的センス”を身につけた瞬間と言えるでしょう。
意外な発見:「専門特化」より「何でもできる」AI
テンセントが世界トップクラスの30以上のAIモデルをテストした結果、興味深い発見がありました。
Google の Gemini-2.5-Pro や Anthropic の Claude 4.0-Sonnet などの商用最高峰モデルが上位を占めたのは予想通りでしたが、もっと驚くべき結果がありました。
コード専用に特化したAIよりも、汎用的な「何でもできる」AIの方が優秀だったのです。
たとえば、汎用モデルの Qwen-2.5-Instruct が、コード特化の Qwen-2.5-coder や画像特化の Qwen2.5-VL を上回ったのです。
研究者たちは、優れた視覚アプリケーションの作成には「堅実な推論力、繊細な指示理解、そして暗黙の美的センス」が必要で、これらは人間らしい総合的な能力だと分析しています。
未来へ:「機能する」から「使いたくなる」AIへ
私たちは今、AIが単に「動くもの」を作る時代から「人が本当に使いたくなるもの」を作る時代へと移行しています。
テンセントの ArtifactsBenchは、その可能性を測定し、未来のAI開発の方向性を示す重要な指標となるでしょう。
まとめ:美的センスを持つAIの時代へ
テンセントが開発した ArtifactsBench は、AIの新たな可能性を切り開く革新的な評価システムです。
「美しさ」や「使いやすさ」という、これまで測定困難だった要素にメスを入れ、AI開発の新しい地平を開きました。
私たちの日常に溶け込むAI製品が、今後ますます洗練され、美しく、使いやすくなっていく—そんな未来が、もうすぐそこまで来ています。
あなたなら、AIが作る次世代のアプリやサイトに、どんな体験を期待しますか?
参考:Tencent improves testing creative AI models with new benchmark
コメント