AIに組み込まれた検閲による命令拒否を打ち消してあらゆる種類の質問に応答できるようにする「アブリテレーション」とは？

事前学習済みの言語モデルは、安全性の観点から好ましくないとされる入力を拒否するように設定されています。この設定を解除する「アブリテレーション」と呼ばれる技術について、機械学習研究者であるマキシム・ラボンヌ氏が解説しています。