LongWriter — открытый фреймворк, датасет и набор языковых моделей для генерации связных и релевантных ответов, превышающих 10 000 слов. Исследователи представили модели LongWriter 8B, 9B и LongWriter-9B-DPO, которые показывают сравнимые результаты с Claude 3.5 и GPT-4.
Хотя Claude 3.5 и GPT-4 могут обрабатывать до 100 000 токенов на входе, объем связного выходного текста значительно меньше. Практический предел окна контекста на выходе составляет около 10 000–20 000 слов (примерно 20 000–40 000 токенов), в зависимости от модели и сложности задачи, что приводит к повторениям или отклонению от темы.
Компактные модели LongWriter достигают практической границы окна ответа 20 000 слов - это около 80 страниц текста.
#Stateoftheart
Хотя Claude 3.5 и GPT-4 могут обрабатывать до 100 000 токенов на входе, объем связного выходного текста значительно меньше. Практический предел окна контекста на выходе составляет около 10 000–20 000 слов (примерно 20 000–40 000 токенов), в зависимости от модели и сложности задачи, что приводит к повторениям или отклонению от темы.
Компактные модели LongWriter достигают практической границы окна ответа 20 000 слов - это около 80 страниц текста.
#Stateoftheart