RLHF(人間フィードバックによる強化学習)
意味・解説
AI(主にLLM)の出力に対し、人間が「どちらの回答が優れているか」を評価(ランク付け)し、その結果をAIにフィードバックして性能を向上させる手法。
同義語: 人間参加型強化学習
分類: 生成AIの最適化技術
AI(主にLLM)の出力に対し、人間が「どちらの回答が優れているか」を評価(ランク付け)し、その結果をAIにフィードバックして性能を向上させる手法。
アプリでもっと効率的に学習
2,651語の用語辞書・過去問28回分・232ステージ
7日間無料でお試し