Metaが展開する大規模言語モデルの「Llama 3.2」ファミリーにおいて、初の軽量な量子化モデルがリリースされました。既存の性能をほとんど維持しながら推論速度やメモリの使用量が大きく改善されています。 続きを読む ≫