🔺 Новые открытые LLM #ml_news
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
_______
Источник | #doomgrad
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
_______
Источник | #doomgrad
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram
www.adept.ai
Releasing Persimmon-8B
We’re open-sourcing Persimmon-8B, the most powerful fully permissively-licensed language model with <10 billion parameters.