⚡️ REFRAG: новое поколение RAG
REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.
📌 Результаты:
- До 30.85× быстрее первый токен
- До 16× длиннее эффективный контекст без потери точности
🔍 В чём идея:
Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.
REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.
Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.
🎯 Как работает:
- Большинство чанков остаются сжатыми.
- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.
- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).
- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.
📄 Paper: arxiv.org/abs/2509.01092
REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.
📌 Результаты:
- До 30.85× быстрее первый токен
- До 16× длиннее эффективный контекст без потери точности
🔍 В чём идея:
Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.
REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.
Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.
🎯 Как работает:
- Большинство чанков остаются сжатыми.
- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.
- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).
- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.
📄 Paper: arxiv.org/abs/2509.01092
❤13👍7🔥4
🤖 «Пионер AI» рассказал о расставании, устроенном через ChatGPT
Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения.
> “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием:
> “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.”
Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей.
📌 Подробности
Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения.
> “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием:
> “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.”
Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей.
📌 Подробности
😁18👍8🔥5💔3❤2🥰2
🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Екатеринбурге и поборись за призовой фонд 600 000 рублей!
📅 Когда: 30 сентября–3 октября
🌐Формат: онлайн + финал на площадке
Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности;
🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp;
🔹сможешь быть в Екатеринбурге 3 октября.
Выбери свой кейс:
🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры.
🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ.
Почему стоит участвовать:
🔻Кейс в портфолио и полезная обратная связь от менторов Т1;
🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний;
🔻Реальный опыт командной работы;
🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси.
Регистрация открыта!
➡️ Успей до 28 сентября по ссылке.
Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах.
#реклама
О рекламодателе
📅 Когда: 30 сентября–3 октября
🌐Формат: онлайн + финал на площадке
Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности;
🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp;
🔹сможешь быть в Екатеринбурге 3 октября.
Выбери свой кейс:
🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры.
🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ.
Почему стоит участвовать:
🔻Кейс в портфолио и полезная обратная связь от менторов Т1;
🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний;
🔻Реальный опыт командной работы;
🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси.
Регистрация открыта!
➡️ Успей до 28 сентября по ссылке.
Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах.
#реклама
О рекламодателе
❤9
🚀 Инференс-движок для QWEN3-0.6B на CUDA
qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA.
🚀 Основные моменты:
- Высокая скорость: быстрее llama.cpp на 8.5%
- Оптимизированный для работы на RTX 3050
- Минимальные зависимости и простота конфигурации
- Эффективное управление памятью на GPU
- Поддержка режима размышлений для улучшенного вывода
📌 GitHub: https://github.com/yassa9/qwen600
#cuda
@machinelearning_interview
qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA.
🚀 Основные моменты:
- Высокая скорость: быстрее llama.cpp на 8.5%
- Оптимизированный для работы на RTX 3050
- Минимальные зависимости и простота конфигурации
- Эффективное управление памятью на GPU
- Поддержка режима размышлений для улучшенного вывода
📌 GitHub: https://github.com/yassa9/qwen600
#cuda
@machinelearning_interview
👍9❤2🔥2
Forwarded from Machinelearning
▪API:https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031
▪ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
▪Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
▪Blog:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list
@ai_machinelearning_big_data
#ASR #SpeechRecognition #Qwen3 #AI #MachineLearning #DeepLearning #VoiceAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5