訓練データ1個だけでLLMの推論性能を倍にする - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

訓練データ1個だけでLLMの推論性能を倍にする – ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example（単一の訓練例を用いた大規模言語モデルにおける推論のための強化学習,…