Neurogen
21.4K subscribers
480 photos
166 videos
17 files
519 links
Популяризатор нейросетей, разработчик-энтузиаст, ментор.

СEO NeuroIMG.ART

По вопросам сотрудничества и рекламы: @roman_neurogen

Портативные сборки: https://boosty.to/neurogen

Live канал: @neurogen_blog
Реестр РКН: №4777528086
Download Telegram
Forwarded from Machinelearning
⚡️ Qwen2.5 Family: Релиз Qwen2.5, Qwen2.5-Coder и Qwen2.5-Math.

Команда разработки Qwen (Alibaba Group) опубликовала большой релиз нового поколения моделей - Qwen2.5, специализированные модели: Qwen2.5-Coder, Qwen2.5-Math, их инструктивные и квантованные версии, анонсированы закрытые Qwen-Plus и Qwen-Turbo.

Вместе с релизом нового поколения 2.5 в отрытый доступ опубликована Qwen2-VL-72B-Instruct предыдущего поколения.

▶️ Qwen2.5

В дополнение к традиционным вариантам с 0,5-1,5-7-72 млрд параметров, Qwen2.5 предлагает две новые модели среднего размера 14 млрд и 32 млрд параметров и компактную модель 3 млрд параметров.

Qwen2.5 обучались на увеличенном и улучшенном наборе данных размером в 18 трлн токенов.

Значительно расширены знания моделей: возможности в области программирования,
усовершенствованы математические способности Qwen2.5, повышено соответствие ответов модели предпочтениям человека: следование инструкциям, генерация длинных текстов (до 8 тыс. токенов), понимание структурированных данных и генерация структурированных выводов (в частности, JSON).

Список моделей:

🟢Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;

🟢Qwen2.5-Instruct: все варианты в форматах GPTQ, AWQ, GGUF.

В дополнение к этим моделям открыт доступ по API для флагманских моделей: Qwen-Plus и Qwen-Turbo через Model Studio.

▶️ Qwen2.5 Coder

Qwen2.5-Coder доступна в трех размерах: 1,5 млрд, 7 млрд и 32 млрд параметров (последняя появится в ближайшее время). Обновление состоит из двух основных улучшений: больше объем обучающих данных и расширение возможностей программирования в общих задачах и в математике.

Модели обучались на массиве данных объемом 5,5 триллиона токенов, включающем исходный код, данные для сопоставления текста и кода и синтетические данные.

Qwen2.5-Coder поддерживает до 128 тысяч токенов контекста, знает 92 языка программирования и выполняет операции по генерации кода, автодополнению и исправлению кода.

Qwen2.5-Coder-Instruct имеет способность к обобщению, знает более 40 языков программирования, справляется с задачами, связанными с логическим мышлением в коде, и показывает высокие результаты в задачах, связанных с математическим мышлением.

Список моделей:

🟠Qwen2.5-Coder: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct: 1.5B, 7B;

🟠Qwen2.5-Coder-Instruct в формате GGUF: 1.5B, 7B.


▶️ Qwen2.5 Math

Qwen2.5-Math обучались на корпусе математических данных Qwen Math Corpus v2, который содержит более 1 трлн. токенов.

Помимо базовых моделей, серия Qwen2.5-Math включает в себя инструктивные модели: Qwen2.5-Math-Instruct и модель математического вознаграждения, Qwen2.5-Math-RM-72B.

Qwen2.5-Math-Instruct обучалась с использованием данных CoT и TIR на китайском и английском языках, а также данных SFT, созданных с использованием Qwen2.5-Math-RM-72B.

Список моделей:

🟠Qwen2.5-Math: 1.5B, 7B, 72B, RM-72B;

🟠Qwen2.5-Math-Instruct: 1.5B, 7B, 72B.


▶️ Вместе с релизом Qwen2.5, опубликована Qwen2-VL-72B-Instruct и ее квантованные Int8 и Int4 версии в форматах GPTQ, AWQ.


📌Лицензирование:

🟢Apache 2.0 для всех base и instruct моделей, кроме 3B и 72B.
🟠Qwen2.5-3B - Qwen Research License.
🟠Qwen2.5-72B и Qwen2.5-Math-72B - Qwen License.



🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo Qwen2.5-Instruct-72B
🟡Demo Qwen2.5-Coder-Instruct-7B
🟡Demo Qwen2.5-Math
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⭐️ OpenAI представили своего AI агента.

Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
operator

⭐️ Open Operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
Github

⭐️ Новый лидер на Text-to-Image Arena! Imagen 3 от Google DeepMind

Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .

⭐️ "Последний экзамен человечества"

Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
Dataset

⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?

Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
Github Статья HF

⭐️ Pika 2.1

Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
Доступ

⭐️ o3-mini станет бесплатной — работать с моделью скоро смогут все желающие!
Новость


⭐️ Anthropic. Представили Citations

Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.

Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
Новость

@ai_machinelearning_big_data


#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM