§ feed · storyline

Learning to summarize with human feedback

OpenAI applies reinforcement learning from human feedback to train language models that produce more accurate text summaries.

Sep 4 · 09:00:00 · primary fetch1 sourceupdated Sep 4 · 09:00:00

We’ve applied reinforcement learning from human feedback to train language models that are better at summarization.

§ sources1 publication · timeline below