ITちゃんねる

仕事に役立つIT関連の最新ニュース

OpenAI、言語モデル評価のためのベンチマークツール「simple-evals」

OpenAI、言語モデル評価のためのベンチマークツール「simple-evals」

OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する。