Microsoftの研究者がこのほど、「VALL-E – Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers」において、人の声を忠実にシミュレートできる新たな音声合成人工知能(AI: Artificial Intelligence)をモデルを発表した。「VALL-E」と名付けられたこの音声合成AIモデルは、3秒間の音声サンプルを与えるだけで、学習してその人物の音声を合成することができ、話者の感情的なトーンを維持するように設計されている。