60以上の大規模言語モデルに19種類の質問を行うベンチマークテストの結果公開

ChatGPTなどのチャットAIでも利用されている大規模言語モデル(LLM)を60種類以上集め、それぞれの創造性を試すような20種類の質問を行い、反応を比較するというベンチマークテストをAIツールの分析・テストサービスを提供するLLMonitorが実施しています。