Forwarded from Machinelearning
QwQ (Qwen with Questions) – экспериментальная исследовательская модель, разработанная Qwen Team с фокусом на развитие способности рассуждения.
QwQ отличается любознательностью, подходя к каждой проблеме – будь то математика, программирование или знания о мире – с подлинным удивлением и сомнением. Прежде чем остановиться на каком-либо ответе, модель подвергает сомнению свои собственные предположения, исследуя разные пути рассуждений в поисках более глубокой истины.
QwQ-32B-Preview, предварительная версия модели, которая демонстрирует аналитические способности в математике и программировании, показывая топовые результаты в тестах:
Архитектура QwQ основана на
transformers
с использованием RoPE, SwiGLU, RMSNorm и Attention QKV bias. Модель имеет 32.5 млрд. параметров, 64 слоя и 40 attention heads для Q и 8 для KV. Контекст модели - 32 768 токенов.⚠️ Как у любого эксперимента, у QwQ есть ограничения:
⚠️ Сообществом LM Studio опубликованы квантованные версии в формате GGUF в разрядности от 3-bit (17.2 Gb) до 8-bit (34.8 GB), совместимые для запуска в
llama.cpp
(release b4191) и LM Studio.from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
@ai_machinelearning_big_data
#AI #ML #LLM #QwQ #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤7🥴1
Forwarded from Machinelearning
PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.
PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.
Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.
Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.
INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.
Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")
input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralizated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍3
Исследователь Яндекса разработал сервис для запуска языковых моделей с 8 млрд параметров на пользовательских девайсах.
Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU. Для этого он применил технологию сжатия нейросетей AQLM, которую разработала команда Yandex Research вместе с университетами ISTA и KAUST.
Для примера, скорость ответов нейросети на MacBook Pro M1 составила 1,5 токена в секунду или 3–4 символа.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤2
🌟 Новые российские открытые модели: T-Lite с 7 млрд. параметров и T-Pro — с 32.
Доступ к T-Pro и обновленной T-Lite от “Т-Технологий (в составе Т-Банк) открыт для всех на платформе Hugging Face. Многочисленные индустриальные бенчмарки, в том числе ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval, подтверждают статус лучших в мире открытых LLM на русском языке. По общему уровню знаний, умению вести диалог и справляться с практическими задачами T-Lite и T-Pro превосходят остальные российские и зарубежные модели. Также T-Pro и T-Lite обгоняют проприетарные модели OpenAI, Google и Anthropic.
Увеличенное число параметров у T-Pro до 32 млр. параметров делает модель более мощной и производительной, а также позволяет ей учитывать больше контекста и особенностей языка, лучше запоминать информацию, делать более точные и сложные выводы
▶️Модели входят в семейство специализированных языковых моделей “Т-Технологий” – Gen-T, которые справляются с решением конкретных задач, что не может предложить, например, ChatGPT.
▶️При разработке моделей используются технологии продолженного предобучения (Continual Pretraining). Таким образом, уже обученную на больших объемах информации модель можно достаточно дообучить под конкретные задачи.
@machinelearning_interview
#AI #ML #LLM
Доступ к T-Pro и обновленной T-Lite от “Т-Технологий (в составе Т-Банк) открыт для всех на платформе Hugging Face. Многочисленные индустриальные бенчмарки, в том числе ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval, подтверждают статус лучших в мире открытых LLM на русском языке. По общему уровню знаний, умению вести диалог и справляться с практическими задачами T-Lite и T-Pro превосходят остальные российские и зарубежные модели. Также T-Pro и T-Lite обгоняют проприетарные модели OpenAI, Google и Anthropic.
Увеличенное число параметров у T-Pro до 32 млр. параметров делает модель более мощной и производительной, а также позволяет ей учитывать больше контекста и особенностей языка, лучше запоминать информацию, делать более точные и сложные выводы
▶️Модели входят в семейство специализированных языковых моделей “Т-Технологий” – Gen-T, которые справляются с решением конкретных задач, что не может предложить, например, ChatGPT.
▶️При разработке моделей используются технологии продолженного предобучения (Continual Pretraining). Таким образом, уже обученную на больших объемах информации модель можно достаточно дообучить под конкретные задачи.
@machinelearning_interview
#AI #ML #LLM
🔥12❤7👍7
Forwarded from Machinelearning
Только что был обновлен популярный бесплатный LLM курс.
Это пошаговое руководство с полезными ресурсами и ноутбуками, как для новичков, так и для тех, кто уже обладает мл-базой
Курс разбит на 3 части:
📌 Курс
#llm #course #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍5❤3
Forwarded from Machinelearning
Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
▪ Читать
▪ Попробовать
Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.
1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.
Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
▪Бенчмарки + блог
▪GGUF (131-212 ГБ) на Hugging Face:
▪Код
▪Демо
▪Qwen-2.5-VL
▪Qwen-2.5-1M
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
▪HF
▪Github
▪ Github
@ai_machinelearning_big_data
#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍4🆒1
Forwarded from Machinelearning
Открытый препринт книги Тарсиса Соуза (Tharsis Souza), PhD Лондонсого университета, в которой представлен критический анализ проблем и ограничений, возникающих у инженеров и руководителей технических проектов при разработке приложений на основе LLM.
Цель книги, по заявлению автора – помочь создавать надежные и безопасные системы на основе LLM, избегая распространенных ошибок.
Она ориентирована на разработчиков, технических менеджеров проектов и технических руководителей, стремящихся к углубленному пониманию и преодолению практических трудностей, связанных с внедрением LLM.
В отличие от преобладающего дискурса, акцентирующего возможности LLM, книга сосредоточена на практических сложностях и потенциальных ошибках реализации, предлагая подробное руководство по их преодолению.
В книге рассматриваются проблемы: структурной ненадежности, управления входными данными, тестирования, аспектов безопасности и элайнмента, зависимости от поставщиков и оптимизации затрат.
Книга сопровождается репозиторием с практическими примерами на Python, анализом реальных сценариев и решений.
@ai_machinelearning_big_data
#AI #ML #LLM #Book #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:
✔️ DeepSeek — революция или переоцененный запуск?
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
✔️ Grok 3 — Маск не дотянул
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
✔️ GPT-4.5 — не оправдал ожиданий экспертов
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
✔️ YandexGPT 5 — что в России?
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤9🔥3👏2
Forwarded from Machinelearning
Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.
В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».
В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.
Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.
Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.
В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:
и эмбединги для генерации базы знаний:
⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный
llama_model.py
в src/kblam/models
.@ai_machinelearning_big_data
#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍4❤🔥2❤1🥰1
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
👍9❤3🔥1🤣1