Qwen3.6-35B-A3B в 2-bit режиме провела полный bug hunt:
• нашла баги
• собрала доказательства
• создала repro
• написала фиксы
• добавила тесты
• и оформила PR
И всё это локально.
13GB RAM. Без облаков.
За время работы модель:
• сделала 30+ tool calls
• прошерстила 20 сайтов
• исполняла Python код
Топ для такой крохи!
GitHub: https://github.com/unslothai/unsloth
• нашла баги
• собрала доказательства
• создала repro
• написала фиксы
• добавила тесты
• и оформила PR
И всё это локально.
13GB RAM. Без облаков.
За время работы модель:
• сделала 30+ tool calls
• прошерстила 20 сайтов
• исполняла Python код
Топ для такой крохи!
GitHub: https://github.com/unslothai/unsloth
👍22❤19🔥6💯2😁1
⚡️ Аналитика уходит в диалоговый режим
Эксперты направления OneData VK фиксируют сдвиг: от SQL-first к естественному языку и агентам. Теперь аналитик — не исполнитель, а контролёр ИИ и качества данных.
Что меняется:
• Аналитику можно «спросить», а не писать запросы
• ИИ уже экономит время: задачи с 20 → 5 минут
• SQL остаётся, но как язык для ИИ, а не для человека
• Уход от разрозненных хранилищ к единым платформам (OneData)
• Дата-контракты и SLA на доставку данных
• Фокус смещается с объема на качество данных
Главный риск — галлюцинации
ошибка выглядит как нормальные данные, поэтому возможен риск неверных решений
Решение:
• проверка моделями (LLM-as-a-judge)
• DQ-контроль и валидация
Подробнее
Эксперты направления OneData VK фиксируют сдвиг: от SQL-first к естественному языку и агентам. Теперь аналитик — не исполнитель, а контролёр ИИ и качества данных.
Что меняется:
• Аналитику можно «спросить», а не писать запросы
• ИИ уже экономит время: задачи с 20 → 5 минут
• SQL остаётся, но как язык для ИИ, а не для человека
• Уход от разрозненных хранилищ к единым платформам (OneData)
• Дата-контракты и SLA на доставку данных
• Фокус смещается с объема на качество данных
Главный риск — галлюцинации
ошибка выглядит как нормальные данные, поэтому возможен риск неверных решений
Решение:
• проверка моделями (LLM-as-a-judge)
• DQ-контроль и валидация
Подробнее
👍15❤9🔥6😁6🤔2💯2
⭐️ Если у тебя накопилось десятки сохранённых гайдов по AI - это нормально
Но большую часть из них ты, скорее всего, не откроешь/
Вот один список, который покрывает основные кейсы работы с Claude.
Claude 101
https://how-to-claude.ai
Claude Code
https://claudecode.free
Claude Skills
https://claude-skills.free
Почему стоит меньше полагаться на промпты
https://ruben.substack.com/p/stop-prompting-claude
Claude в Excel
https://ruben.substack.com/p/ai-couldnt-do-excel
40 репозиториев по 8 категориям. Полный роадмап от математических основ до написания собственного LLM.
https://uproger.com/40-github-repozitoriev-kotorye-zamenyat-vam-lyuboj-platnyj-kurs-po-ai-polnyj-roadmap-ot-matematicheskih-osnov-do-napisaniya-sobstvennogo-llm/
Рост аудитории с помощью AI
https://ruben.substack.com/p/1000000how-claude.team
Claude для команд разработчиков
https://how-claude.team
Почему одного промпта недостаточно
https://ruben.substack.com/p/magic
Создание презентаций
https://how-to-gamma.ai
Настройка Claude Cowork
https://claude-co.work
Как адаптировать стиль ИИ под себя
https://ruben.substack.com/p/i-am-just-a-text-file
Интерактивные графики
https://ruben.substack.com/p/claude-charts
Claude как рабочая среда
https://ruben.substack.com/p/claude-computer
Cowork + Projects
https://ruben.substack.com/p/claude-cowork-project
Как правильно настроить AI перед работой
https://ruben.substack.com/p/how-to-better-use-ai-before-prompting
Сохрани, пригодится.
Но большую часть из них ты, скорее всего, не откроешь/
Вот один список, который покрывает основные кейсы работы с Claude.
Claude 101
https://how-to-claude.ai
Claude Code
https://claudecode.free
Claude Skills
https://claude-skills.free
Почему стоит меньше полагаться на промпты
https://ruben.substack.com/p/stop-prompting-claude
Claude в Excel
https://ruben.substack.com/p/ai-couldnt-do-excel
40 репозиториев по 8 категориям. Полный роадмап от математических основ до написания собственного LLM.
https://uproger.com/40-github-repozitoriev-kotorye-zamenyat-vam-lyuboj-platnyj-kurs-po-ai-polnyj-roadmap-ot-matematicheskih-osnov-do-napisaniya-sobstvennogo-llm/
Рост аудитории с помощью AI
https://ruben.substack.com/p/1000000how-claude.team
Claude для команд разработчиков
https://how-claude.team
Почему одного промпта недостаточно
https://ruben.substack.com/p/magic
Создание презентаций
https://how-to-gamma.ai
Настройка Claude Cowork
https://claude-co.work
Как адаптировать стиль ИИ под себя
https://ruben.substack.com/p/i-am-just-a-text-file
Интерактивные графики
https://ruben.substack.com/p/claude-charts
Claude как рабочая среда
https://ruben.substack.com/p/claude-computer
Cowork + Projects
https://ruben.substack.com/p/claude-cowork-project
Как правильно настроить AI перед работой
https://ruben.substack.com/p/how-to-better-use-ai-before-prompting
Сохрани, пригодится.
👍17🔥8❤5🤣4
⚡️ Prefill-as-a-Service предлагает пересобрать инференс
В статье (авторы Kimi.ai) разбирают, почему держать Prefill и Decode в одном процессе невыгодно, и как это разнести без потерь.
Любой ответ модели начинается с Prefill. Модель читает весь вход и строит внутреннее состояние. Дальше идёт Decode. Пошаговая генерация токенов.
Эти этапы ведут себя по-разному. Prefill короткий, но тяжёлый по вычислениям. Decode долгий и чувствительный к задержкам. Когда они сидят на одном GPU, часть ресурсов простаивает.
В статье предлагают вынести Prefill в отдельный сервис. Его можно крутить на других узлах или в другом дата-центре. Decode оставить ближе к пользователю, где важна задержка на токен.
Авторы упирались в KV cache. Он слишком большой, чтобы гонять его по сети без ощутимых накладных расходов. Но в статье показывают, что при оптимизации представления KV это становится практичным.
На практике это даёт более быстрый первый токен и лучший throughput. Появляется возможность подбирать железо под конкретный этап, а не под весь пайплайн сразу.
Инференс перестаёт быть привязанным к одному месту. Его можно разнести, как обычный сервис. И дальше оптимизировать уже не только модель, но и архитектуру вокруг неё.
Проверено на модели Kimi Linear, увеличенной в 20 раз:
• пропускная способность модели выросла в 1.54 раза
• P90 TTFT ниже на 64%.
• На выходе это напрямую конвертируется в более дешёвый токен.
https://arxiv.org/html/2604.15039v1
В статье (авторы Kimi.ai) разбирают, почему держать Prefill и Decode в одном процессе невыгодно, и как это разнести без потерь.
Любой ответ модели начинается с Prefill. Модель читает весь вход и строит внутреннее состояние. Дальше идёт Decode. Пошаговая генерация токенов.
Эти этапы ведут себя по-разному. Prefill короткий, но тяжёлый по вычислениям. Decode долгий и чувствительный к задержкам. Когда они сидят на одном GPU, часть ресурсов простаивает.
В статье предлагают вынести Prefill в отдельный сервис. Его можно крутить на других узлах или в другом дата-центре. Decode оставить ближе к пользователю, где важна задержка на токен.
Авторы упирались в KV cache. Он слишком большой, чтобы гонять его по сети без ощутимых накладных расходов. Но в статье показывают, что при оптимизации представления KV это становится практичным.
На практике это даёт более быстрый первый токен и лучший throughput. Появляется возможность подбирать железо под конкретный этап, а не под весь пайплайн сразу.
Инференс перестаёт быть привязанным к одному месту. Его можно разнести, как обычный сервис. И дальше оптимизировать уже не только модель, но и архитектуру вокруг неё.
Проверено на модели Kimi Linear, увеличенной в 20 раз:
• пропускная способность модели выросла в 1.54 раза
• P90 TTFT ниже на 64%.
• На выходе это напрямую конвертируется в более дешёвый токен.
https://arxiv.org/html/2604.15039v1
👍8❤4🔥4🤔1
🚀 Появился интересный вариант Qwen с улучшенным мышлением
Qwen 3.6 35B дообучили на цепочках рассуждений от Opus 4.6.
Идея простая:
• берут быструю модель
• добавляют ей «логику» через distilled CoT
• получают баланс скорости и качества
Что в итоге:
- отвечает быстро, как обычный Qwen
- лучше справляется со сложными задачами
- реже теряется в длинных рассуждениях
Это тот же подход, который уже хорошо зашёл в комьюнити с Qwen 3.5 27B.
То есть не новая модель, а грамотный fine-tune, который усиливает уже существующую
Такие сборки могут быть полезны тем, что:
• их можно запускать локально
• они дешевле API
• и при этом дают более стабильное reasoning
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
@data_analysis_ml
Qwen 3.6 35B дообучили на цепочках рассуждений от Opus 4.6.
Идея простая:
• берут быструю модель
• добавляют ей «логику» через distilled CoT
• получают баланс скорости и качества
Что в итоге:
- отвечает быстро, как обычный Qwen
- лучше справляется со сложными задачами
- реже теряется в длинных рассуждениях
Это тот же подход, который уже хорошо зашёл в комьюнити с Qwen 3.5 27B.
То есть не новая модель, а грамотный fine-tune, который усиливает уже существующую
Такие сборки могут быть полезны тем, что:
• их можно запускать локально
• они дешевле API
• и при этом дают более стабильное reasoning
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
@data_analysis_ml
👍19🔥11❤4🤔3
⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍19❤7🔥6🥴2😐2👏1
До сих пор разворачиваете PostgreSQL вручную?
Сэкономьте силы для задач разработки.
21 апреля в 16:00 (мск) пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.
Что будет в эфире:
⚫️ ️️ облачный PostgreSQL: плюсы/минусы решения;
⚫️ ️️ как устроен управляемый сервис в новом облаке от MWS Cloud;
⚫️ ️️ машинерия под капотом бэкапов, автообновлений, switch и failover;
⚫️ ️️ создадим кластер за несколько минут и настроим подключение.
Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.
Зарегистрироваться
Сэкономьте силы для задач разработки.
21 апреля в 16:00 (мск) пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.
Что будет в эфире:
Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Андрей Карпаты высказал про дизайн ИИ-моделей мысль, которую большинство упускает из виду.
Его тезис: передовые модели не потому огромные, что технология сложная, а потому что данные для обучения мусорные.
Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.
Так вот, датасет для предобучения выглядит иначе. Если открыть случайные документы из реального корпуса, то там будут тикеры акций, битый HTML, спам и бессвязный текст.
По одной из оценок, Llama 3 сжимает информацию со скоростью всего 0.07 бита на токен. То есть модель помнит большую часть обучающих данных смутно.
Поэтому мы и строим модели на триллион параметров не потому, что нам нужен мозг такого размера, а потому что нужен движок сжатия такого масштаба, чтобы выжать хоть какой-то интеллект из потока шума. Большая часть параметров работает памятью, а не мышлением.
Предложение Карпаты - разделить эти две функции. Построить когнитивное ядро - модель, в которой остались только алгоритмы рассуждения и решения задач, без энциклопедического заучивания.
А рядом поставить внешнюю память, к которой модель обращается за фактами.
По его прогнозу, когнитивное ядро, обученное на качественных данных, способно выйти на настоящий интеллект при размере около миллиарда параметров. Для сравнения: флагманские модели сегодня крутятся в диапазоне от 200 миллиардов до 1.8 триллиона параметров, и большая часть этого веса уходит на запоминание интернет-помойки.
GPT-4o работает примерно на 200 миллиардах параметров и обходит оригинальный GPT-4 на 1.8 триллиона. Стоимость инференса на уровне GPT-3.5 с 2022 по 2024 упала в 280 раз, и почти весь этот выигрыш дали модели меньшего размера, обученные на более чистых данных с более продуманной архитектурой.
Настоящим узким местом ИИ сейчас является качество данных.
@data_analysis_ml
Его тезис: передовые модели не потому огромные, что технология сложная, а потому что данные для обучения мусорные.
Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.
Так вот, датасет для предобучения выглядит иначе. Если открыть случайные документы из реального корпуса, то там будут тикеры акций, битый HTML, спам и бессвязный текст.
По одной из оценок, Llama 3 сжимает информацию со скоростью всего 0.07 бита на токен. То есть модель помнит большую часть обучающих данных смутно.
Поэтому мы и строим модели на триллион параметров не потому, что нам нужен мозг такого размера, а потому что нужен движок сжатия такого масштаба, чтобы выжать хоть какой-то интеллект из потока шума. Большая часть параметров работает памятью, а не мышлением.
Предложение Карпаты - разделить эти две функции. Построить когнитивное ядро - модель, в которой остались только алгоритмы рассуждения и решения задач, без энциклопедического заучивания.
А рядом поставить внешнюю память, к которой модель обращается за фактами.
По его прогнозу, когнитивное ядро, обученное на качественных данных, способно выйти на настоящий интеллект при размере около миллиарда параметров. Для сравнения: флагманские модели сегодня крутятся в диапазоне от 200 миллиардов до 1.8 триллиона параметров, и большая часть этого веса уходит на запоминание интернет-помойки.
GPT-4o работает примерно на 200 миллиардах параметров и обходит оригинальный GPT-4 на 1.8 триллиона. Стоимость инференса на уровне GPT-3.5 с 2022 по 2024 упала в 280 раз, и почти весь этот выигрыш дали модели меньшего размера, обученные на более чистых данных с более продуманной архитектурой.
Настоящим узким местом ИИ сейчас является качество данных.
@data_analysis_ml
🔥43👍15❤13
Отказался от OpenAI за 80 миллиардов, чтобы построить компанию за 380: невероятная история Дарио Амодея
В ноябре 2023 года совет директоров OpenAI предложил ему пост генерального директора самой мощной ИИ-компании в мире, оценённой в 80 миллиардов долларов. Он отказался меньше чем за сутки и без колебаний. Через два года его собственная компания Anthropic стоит 380 миллиардов. Его зовут Дарио Амодей, и это его история.
Сан-Франциско, 1983 год, район Миссия. Отец Риккардо работал кожевником, итальянец по происхождению. Мать Елена занималась проектами по обновлению библиотек. В доме почти не было технологий: только книги, физика и одна навязчивая идея, понять, как устроен мир.
Отказался от OpenAI за 80 миллиардов, чтобы построить компанию за 380: невероятная история Дарио Амодея
Пока сверстники во времена пузыря доткомов собирали сайты на коленке, Дарио погружался в квантовую механику. Он не хотел делать очередной стартап. Его интересовали фундаментальные научные вопросы и то, что стоит за формулами. Этот подход он пронесёт через всю карьеру.
В 2006 году умер отец, от редкого генетического заболевания. Через четыре года появилась терапия, которая могла бы его спасти. Для Амодея это стало переломным моментом. Он окончательно утвердился в мысли, что скорость научного прогресса, это буквально вопрос жизни и смерти. Если наука движется медленно, кто-то платит за это близкими.
Путь в ИИ начался в Принстоне, затем Стэнфорд, Google Brain и Baidu. В какой-то момент Дарио оказался в OpenAI и стал вице-президентом по исследованиям. Именно под его руководством команда довела до релиза GPT-2 и GPT-3, задав направление, в котором развивалась вся индустрия больших языковых моделей.
В 2021 году он вместе с сестрой Даниэлой и группой исследователей ушёл из OpenAI, чтобы основать Anthropic. Главный мотив, безопасность ИИ. Амодей считал, что без серьёзной работы над согласованием моделей с человеческими ценностями гонка за мощностью превратится в гонку рисков. Так появилась компания, которая с первого дня ставит safety на один уровень с capability.
Флагманский продукт Anthropic, это Claude. Сегодня он один из главных конкурентов ChatGPT, им пользуются крупнейшие корпорации, разработчики и исследователи. Модель известна длинным контекстом, аккуратной работой с инструкциями и зрелой моделью поведения в чувствительных темах.
И вот финал первой главы. Осенью 2023 года OpenAI переживает корпоративный шторм с увольнением Сэма Альтмана. Совет директоров ищет нового CEO и делает предложение человеку, который знает компанию изнутри, Дарио Амодею. Он отвечает «нет» меньше чем за 24 часа. У него уже есть своя миссия и своя команда.
Два года спустя Anthropic оценивается в 380 миллиардов долларов, а Claude встроен в тысячи продуктов от стартапов до Amazon и Google. Компания, построенная вокруг идеи безопасного ИИ, обогнала по капитализации ту самую OpenAI образца 2023 года, от лидерства в которой её основатель спокойно отказался.
Иногда самый сильный карьерный ход, это отказ от очевидно выигрышного варианта ради того, во что ты по-настоящему веришь. Для специалистов по ИИ это ещё и напоминание: техническое лидерство без чёткой ценностной рамки быстро превращается в гонку без финиша, а правильно выбранная миссия способна перевесить любые краткосрочные предложения рынка.
https://uproger.com/istoriya-dario-amodeya-otkazalsya-ot-openai-i-postroil-anthropic-za-380-mlrd/
В ноябре 2023 года совет директоров OpenAI предложил ему пост генерального директора самой мощной ИИ-компании в мире, оценённой в 80 миллиардов долларов. Он отказался меньше чем за сутки и без колебаний. Через два года его собственная компания Anthropic стоит 380 миллиардов. Его зовут Дарио Амодей, и это его история.
Сан-Франциско, 1983 год, район Миссия. Отец Риккардо работал кожевником, итальянец по происхождению. Мать Елена занималась проектами по обновлению библиотек. В доме почти не было технологий: только книги, физика и одна навязчивая идея, понять, как устроен мир.
Отказался от OpenAI за 80 миллиардов, чтобы построить компанию за 380: невероятная история Дарио Амодея
Пока сверстники во времена пузыря доткомов собирали сайты на коленке, Дарио погружался в квантовую механику. Он не хотел делать очередной стартап. Его интересовали фундаментальные научные вопросы и то, что стоит за формулами. Этот подход он пронесёт через всю карьеру.
В 2006 году умер отец, от редкого генетического заболевания. Через четыре года появилась терапия, которая могла бы его спасти. Для Амодея это стало переломным моментом. Он окончательно утвердился в мысли, что скорость научного прогресса, это буквально вопрос жизни и смерти. Если наука движется медленно, кто-то платит за это близкими.
Путь в ИИ начался в Принстоне, затем Стэнфорд, Google Brain и Baidu. В какой-то момент Дарио оказался в OpenAI и стал вице-президентом по исследованиям. Именно под его руководством команда довела до релиза GPT-2 и GPT-3, задав направление, в котором развивалась вся индустрия больших языковых моделей.
В 2021 году он вместе с сестрой Даниэлой и группой исследователей ушёл из OpenAI, чтобы основать Anthropic. Главный мотив, безопасность ИИ. Амодей считал, что без серьёзной работы над согласованием моделей с человеческими ценностями гонка за мощностью превратится в гонку рисков. Так появилась компания, которая с первого дня ставит safety на один уровень с capability.
Флагманский продукт Anthropic, это Claude. Сегодня он один из главных конкурентов ChatGPT, им пользуются крупнейшие корпорации, разработчики и исследователи. Модель известна длинным контекстом, аккуратной работой с инструкциями и зрелой моделью поведения в чувствительных темах.
И вот финал первой главы. Осенью 2023 года OpenAI переживает корпоративный шторм с увольнением Сэма Альтмана. Совет директоров ищет нового CEO и делает предложение человеку, который знает компанию изнутри, Дарио Амодею. Он отвечает «нет» меньше чем за 24 часа. У него уже есть своя миссия и своя команда.
Два года спустя Anthropic оценивается в 380 миллиардов долларов, а Claude встроен в тысячи продуктов от стартапов до Amazon и Google. Компания, построенная вокруг идеи безопасного ИИ, обогнала по капитализации ту самую OpenAI образца 2023 года, от лидерства в которой её основатель спокойно отказался.
Иногда самый сильный карьерный ход, это отказ от очевидно выигрышного варианта ради того, во что ты по-настоящему веришь. Для специалистов по ИИ это ещё и напоминание: техническое лидерство без чёткой ценностной рамки быстро превращается в гонку без финиша, а правильно выбранная миссия способна перевесить любые краткосрочные предложения рынка.
https://uproger.com/istoriya-dario-amodeya-otkazalsya-ot-openai-i-postroil-anthropic-za-380-mlrd/
❤35👍18🔥14❤🔥3👌2🤣2
Релиз Kimi K2.6. Впечатление смешанное.
Главное открытые веса, приличные цифры на бенчмарках (HLE 54.0, SWE-Bench Pro 58.6, SWE-bench Multilingual 76.7), заявленный long-horizon coding на 12+ часов и рост агентских роёв со 100 до 300 субагентов.
Доступ через чат, API и Kimi Code.
Минусы: часть бенчмарков снята в связке с Python, то есть это оценка системы, а не модели. «Open-source SOTA» значит лидерство среди открытых, сравнений с GPT и Claude в посте нет.
• HLE с инструментами: 54.0
• SWE-Bench Pro: 58.6
• SWE-bench Multilingual: 76.7
• BrowseComp: 83.2
• Toolathlon: 50.0
• Charxiv с Python: 86.7
• Math Vision с Python: 93.2
🔗 API: https://platform.moonshot.ai
🔗 Tech blog: https://kimi.com/blog/kimi-k2-6
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6
Главное открытые веса, приличные цифры на бенчмарках (HLE 54.0, SWE-Bench Pro 58.6, SWE-bench Multilingual 76.7), заявленный long-horizon coding на 12+ часов и рост агентских роёв со 100 до 300 субагентов.
Доступ через чат, API и Kimi Code.
Минусы: часть бенчмарков снята в связке с Python, то есть это оценка системы, а не модели. «Open-source SOTA» значит лидерство среди открытых, сравнений с GPT и Claude в посте нет.
• HLE с инструментами: 54.0
• SWE-Bench Pro: 58.6
• SWE-bench Multilingual: 76.7
• BrowseComp: 83.2
• Toolathlon: 50.0
• Charxiv с Python: 86.7
• Math Vision с Python: 93.2
🔗 API: https://platform.moonshot.ai
🔗 Tech blog: https://kimi.com/blog/kimi-k2-6
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6
❤10👍9🔥5
⚡️ Бесплатный клон Claude Opus 4.6 появился на Hugging Face, пока Anthropic не успела его снести
Энтузиасты дистиллировали Opus 4.6 в Qwen 3.6 и выложили на Hugging Face.
Вышла Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled: кто-то взял Qwen 3.6 на 36B параметров, дообучил его на ризонинг-трейсах Claude Opus 4.6 и залил в GGUF. По заявлениям автора, модель держит уровень Opus в кодинге, анализе и райтинге. Проверять, конечно, придётся самим, маркетинг в описаниях репо сейчас стандартно оптимистичный.
Что важно для практики. MoE-архитектура с активными 3B из 35B означает, что инференс идёт заметно легче полной 35B плотной модели, а GGUF-кванты позволяют запускать это на обычной видеокарте или даже CPU при желании потерпеть. Поднимается через Ollama или LM Studio в два клика, для тех у кого железо скромное есть вариант с Colab. Всё локально, никаких запросов наружу.
Технически это именно дистилляция ризонинга, не слепое копирование. Студент учится воспроизводить промежуточные рассуждения учителя, а не только финальные ответы, поэтому на задачах с цепочками логики такие модели обычно ведут себя заметно лучше, чем просто файнтюн на ответах. Насколько близко получилось подойти к настоящему Opus, покажут независимые прогоны на бенчах, автор цифр пока не дал.
Юридически момент мутный: дистилляция на аутпутах закрытой модели формально противоречит ToS Anthropic, так что срок жизни таких весов на HF непредсказуемый. Качайте сейчас, если интересно поиграться.
Ссылка: https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
Энтузиасты дистиллировали Opus 4.6 в Qwen 3.6 и выложили на Hugging Face.
Вышла Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled: кто-то взял Qwen 3.6 на 36B параметров, дообучил его на ризонинг-трейсах Claude Opus 4.6 и залил в GGUF. По заявлениям автора, модель держит уровень Opus в кодинге, анализе и райтинге. Проверять, конечно, придётся самим, маркетинг в описаниях репо сейчас стандартно оптимистичный.
Что важно для практики. MoE-архитектура с активными 3B из 35B означает, что инференс идёт заметно легче полной 35B плотной модели, а GGUF-кванты позволяют запускать это на обычной видеокарте или даже CPU при желании потерпеть. Поднимается через Ollama или LM Studio в два клика, для тех у кого железо скромное есть вариант с Colab. Всё локально, никаких запросов наружу.
Технически это именно дистилляция ризонинга, не слепое копирование. Студент учится воспроизводить промежуточные рассуждения учителя, а не только финальные ответы, поэтому на задачах с цепочками логики такие модели обычно ведут себя заметно лучше, чем просто файнтюн на ответах. Насколько близко получилось подойти к настоящему Opus, покажут независимые прогоны на бенчах, автор цифр пока не дал.
Юридически момент мутный: дистилляция на аутпутах закрытой модели формально противоречит ToS Anthropic, так что срок жизни таких весов на HF непредсказуемый. Качайте сейчас, если интересно поиграться.
Ссылка: https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
👍25❤8🔥5🤣3
This media is not supported in your browser
VIEW IN TELEGRAM
SSoT: Sakana AI научила LLM быть по-настоящему случайными
Попросите любую LLM 100 раз «подбрось монету», и распределение орла и решки перекосится далеко от честных 50 на 50. Похожая история с «придумай 10 идей для романа»: вместо десяти разных сюжетов модель выдаёт десять вариаций одного и того же. Даже если явно передать ей вероятности, генерировать выборку, строго соответствующую распределению, у LLM получается плохо.
Японская лаборатория Sakana AI в новой статье «SSoT: Prompting LLMs for Distribution-Faithful and Diverse Generation», принятой на ICLR 2026, показывает, что эту проблему можно закрыть одним только промптом, без дообучения и без внешних генераторов случайных чисел.
Приём называется String Seed of Thought и устроен максимально просто: модель сначала генерирует у себя в «голове» случайную строку, а потом использует её как сид при формировании итогового ответа. Никаких внешних инструментов и случайных чисел извне не требуется, всё делается средствами самой LLM.
Авторы прогнали SSoT на широком наборе моделей, и картина получилась убедительная. Смещение выборки у открытых и закрытых LLM заметно уменьшается, а у части reasoning-моделей точность распределений почти неотличима от настоящего ГСЧ. Метод работает не только на бинарном выборе вроде монетки, но и на произвольных дискретных распределениях.
SSoT резко повышает разнообразие генерации в задачах, где важна креативность. В экспериментах с написанием коротких художественных текстов добавление одной строчки SSoT в промпт ощутимо увеличивает разнообразие выходных документов, не ломая их качества. То есть один и тот же трюк одновременно чинит и «честную случайность», и типичную проблему с однообразными идеями.
Для AI-инженеров это интересно по нескольким причинам. SSoT можно воспринимать как дешёвый кирпич для построения продакшен-систем на LLM: там, где раньше приходилось прикручивать внешние сэмплеры или городить костыли, чтобы модель не залипала в одном и том же ответе, теперь иногда достаточно грамотно оформленного промпта. Sakana AI прямо называет SSoT базовой техникой для будущих подходов к inference-time scaling, интеграции LLM в реальные пайплайны и для задач, где нужны честные выборки из распределений.
Подробный разбор механизма, теоретический анализ и интерактивное демо лежат в блоге и в статье на arXiv.
Блог: https://pub.sakana.ai/ssot
Статья: https://arxiv.org/abs/2510.21150
Попросите любую LLM 100 раз «подбрось монету», и распределение орла и решки перекосится далеко от честных 50 на 50. Похожая история с «придумай 10 идей для романа»: вместо десяти разных сюжетов модель выдаёт десять вариаций одного и того же. Даже если явно передать ей вероятности, генерировать выборку, строго соответствующую распределению, у LLM получается плохо.
Японская лаборатория Sakana AI в новой статье «SSoT: Prompting LLMs for Distribution-Faithful and Diverse Generation», принятой на ICLR 2026, показывает, что эту проблему можно закрыть одним только промптом, без дообучения и без внешних генераторов случайных чисел.
Приём называется String Seed of Thought и устроен максимально просто: модель сначала генерирует у себя в «голове» случайную строку, а потом использует её как сид при формировании итогового ответа. Никаких внешних инструментов и случайных чисел извне не требуется, всё делается средствами самой LLM.
Авторы прогнали SSoT на широком наборе моделей, и картина получилась убедительная. Смещение выборки у открытых и закрытых LLM заметно уменьшается, а у части reasoning-моделей точность распределений почти неотличима от настоящего ГСЧ. Метод работает не только на бинарном выборе вроде монетки, но и на произвольных дискретных распределениях.
SSoT резко повышает разнообразие генерации в задачах, где важна креативность. В экспериментах с написанием коротких художественных текстов добавление одной строчки SSoT в промпт ощутимо увеличивает разнообразие выходных документов, не ломая их качества. То есть один и тот же трюк одновременно чинит и «честную случайность», и типичную проблему с однообразными идеями.
Для AI-инженеров это интересно по нескольким причинам. SSoT можно воспринимать как дешёвый кирпич для построения продакшен-систем на LLM: там, где раньше приходилось прикручивать внешние сэмплеры или городить костыли, чтобы модель не залипала в одном и том же ответе, теперь иногда достаточно грамотно оформленного промпта. Sakana AI прямо называет SSoT базовой техникой для будущих подходов к inference-time scaling, интеграции LLM в реальные пайплайны и для задач, где нужны честные выборки из распределений.
Подробный разбор механизма, теоретический анализ и интерактивное демо лежат в блоге и в статье на arXiv.
Блог: https://pub.sakana.ai/ssot
Статья: https://arxiv.org/abs/2510.21150
❤20👍11🔥9
Потоковая обработка данных становится стандартом для цифровых продуктов.
MWS Cloud вывели Managed Kafka в промышленную эксплуатацию — сервис, который позволяет использовать Apache Kafka как готовый облачный компонент.
Компании все чаще переходят от пакетной обработки к работе с данными в реальном времени: это нужно для аналитики, микросервисных архитектур, интеграций и построения data-платформ.
Managed Kafka закрывает этот сценарий под ключ: быстрый запуск кластеров, встроенная сетевая среда, изоляция и безопасность, интеграция с облачными сервисами.
В результате бизнес может быстрее запускать real-time аналитику, выстраивать потоковые пайплайны и развивать data-продукты без дополнительных затрат на поддержку инфраструктуры.
По сути, Kafka закрепляется как базовый элемент современной архитектуры, а облако — как основной способ ее использования.
MWS Cloud вывели Managed Kafka в промышленную эксплуатацию — сервис, который позволяет использовать Apache Kafka как готовый облачный компонент.
Компании все чаще переходят от пакетной обработки к работе с данными в реальном времени: это нужно для аналитики, микросервисных архитектур, интеграций и построения data-платформ.
Managed Kafka закрывает этот сценарий под ключ: быстрый запуск кластеров, встроенная сетевая среда, изоляция и безопасность, интеграция с облачными сервисами.
В результате бизнес может быстрее запускать real-time аналитику, выстраивать потоковые пайплайны и развивать data-продукты без дополнительных затрат на поддержку инфраструктуры.
По сути, Kafka закрепляется как базовый элемент современной архитектуры, а облако — как основной способ ее использования.
👍4🔥4🥰2🌭1
Media is too big
VIEW IN TELEGRAM
🗣 Релиз Fun-ASR1.5 - обновление end-to-end модели распознавания речи.
Главное изменение в том, что модель стала ближе к продакшену.
Поддержка 30 языков в одном пайплайне. Без разбиения на отдельные модели и маршрутизации.
Нормально работает с code-switching. Если в речи смешаны языки, модель сама это определяет и корректно транскрибирует, без ручной разметки.
Выходной текст стал заметно чище. Появилась адекватная пунктуация и форматирование чисел, дат, валют. Меньше постобработки, меньше костылей сверху.
Фактически это уже не просто ASR, а готовый слой для сервисов, где речь сразу превращается в пригодный текст.
API:
https://dashscope-intl.aliyuncs.com/api/v1
Демо:
https://modelscope.cn/studios/iic/FunAudio-ASR
Главное изменение в том, что модель стала ближе к продакшену.
Поддержка 30 языков в одном пайплайне. Без разбиения на отдельные модели и маршрутизации.
Нормально работает с code-switching. Если в речи смешаны языки, модель сама это определяет и корректно транскрибирует, без ручной разметки.
Выходной текст стал заметно чище. Появилась адекватная пунктуация и форматирование чисел, дат, валют. Меньше постобработки, меньше костылей сверху.
Фактически это уже не просто ASR, а готовый слой для сервисов, где речь сразу превращается в пригодный текст.
API:
https://dashscope-intl.aliyuncs.com/api/v1
Демо:
https://modelscope.cn/studios/iic/FunAudio-ASR
👍9❤6🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Ларри Пейдж (основатель и первый CEO Google) понимал это ещё в 2007 году:
Пейдж ещё почти 20 лет назад предсказал, что прорыв в ИИ случится не благодаря теоретическим находкам, а за счёт грубой вычислительной мощи.
И в подтверждение приводил аналогию: даже сам человек «закодирован» очень компактно (≈600 МБ ДНК), значит дело не в сложности кода, а в масштабе вычислений, которые этот код разворачивают в работающий интеллект.
«Когда ИИ станет реальностью, всё будет упираться в огромные объёмы вычислений, а не в хитрые алгоритмы, придуманные у доски. Моя теория такая: если посмотреть на вашу "программу" - на ДНК - то в сжатом виде это всего около 600 мегабайт.
То есть она меньше любой современной операционной системы - меньше, чем Linux, Windows или что-то подобное. И это вся ваша "операционка" целиком».
Пейдж ещё почти 20 лет назад предсказал, что прорыв в ИИ случится не благодаря теоретическим находкам, а за счёт грубой вычислительной мощи.
И в подтверждение приводил аналогию: даже сам человек «закодирован» очень компактно (≈600 МБ ДНК), значит дело не в сложности кода, а в масштабе вычислений, которые этот код разворачивают в работающий интеллект.
👍36👌7🥱3🔥1
Google DeepMind показали двух новых автономных агентов: Deep Research и Deep Research Max на базе Gemini 3.1 Pro.
Они сами лазят по вебу и по вашим внутренним документам, а на выходе отдают готовый профессиональный отчёт с цитатами и всеми источниками.
Обычная версия заточена под скорость, подходит для интерактивных сценариев, где ответ нужен быстро.
Max не торопится: тратит больше времени на поиск и рассуждение, собирает максимум контекста и заметно обгоняет конкурентов на отраслевых бенчмарках по извлечению фактов и синтезу.
Главная фишка - поддержка сторонних MCP.
Агенту можно безопасно подключить свои базы, корпоративные хранилища или сторонние источники вроде специализированных финансовых данных, и он будет работать прямо с ними, а не только с открытым интернетом.
https://x.com/GoogleDeepMind/status/2046627042335060342
Они сами лазят по вебу и по вашим внутренним документам, а на выходе отдают готовый профессиональный отчёт с цитатами и всеми источниками.
Обычная версия заточена под скорость, подходит для интерактивных сценариев, где ответ нужен быстро.
Max не торопится: тратит больше времени на поиск и рассуждение, собирает максимум контекста и заметно обгоняет конкурентов на отраслевых бенчмарках по извлечению фактов и синтезу.
Главная фишка - поддержка сторонних MCP.
Агенту можно безопасно подключить свои базы, корпоративные хранилища или сторонние источники вроде специализированных финансовых данных, и он будет работать прямо с ними, а не только с открытым интернетом.
https://x.com/GoogleDeepMind/status/2046627042335060342
❤12👍9🔥4🐳1
Пока все соревнуются, чей ответ длиннее и красивее, Ant Group пошли в обратную сторону и выпустили Ling-2.6-flash.
Модель с 104 миллиардами параметров, из которых активных всего 7,4 миллиарда. То есть MoE архитектура, где в каждый момент работает лишь малая часть сети, а считать приходится за копейки.
Модель специально натаскана не раздувать ответы. Никаких простыней на пустом месте, никакого пережёвывания одной мысли на три абзаца ради видимости глубины.
Разработчики прямым текстом говорят: мы оптимизировали соотношение интеллект на токен, а не интеллект на количество слов. Для тех, кто платит за API, это буквально экономия на ровном месте, потому что цена идёт за каждый токен, а выхлоп тот же.
Архитектура гибридная линейная, что даёт серьёзный прирост по скорости и памяти на длинных контекстах.
Обычные трансформеры на длинном входе захлёбываются квадратичной сложностью внимания, а тут эту проблему частично обошли.
Модель быстрая, причём заметно.
Отдельно заточили её под агентские сценарии. Вызов инструментов, многошаговое планирование, выполнение задач.
Замеры идут на BFCL-V4, SWE-bench Verified, TAU2-bench и Claw-Eval, то есть на реальных агентных бенчмарках, а не на синтетике.
И там Ling-2.6-flash держится на уровне конкурентов, которые в разы жирнее по активным параметрам.
Неделю даётся бесплатный доступ через OpenRouter и Novita, плюс официальная площадка ling.tbox.cn.
То есть потрогать можно прямо сейчас, без платёжки и без ожидания вейтлиста.
https://openrouter.ai/inclusionai/ling-2.6-flash:free
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥10❤6