Splitwiseでは、LLM推論を2つのフェーズした上で別のマシンに割り当て、それぞれの特性に応じて利用するハードウェアが最適になるように設計することで、ハードウェアのコストを削減しながらスループットを最大化することに成功したという。 続きを読む ≫