Анализ данных (Data analysis)

0:35

Ларри Пейдж (основатель и первый CEO Google) понимал это ещё в 2007 году:

«Когда ИИ станет реальностью, всё будет упираться в огромные объёмы вычислений, а не в хитрые алгоритмы, придуманные у доски. Моя теория такая: если посмотреть на вашу "программу" - на ДНК - то в сжатом виде это всего около 600 мегабайт.

То есть она меньше любой современной операционной системы - меньше, чем Linux, Windows или что-то подобное. И это вся ваша "операционка" целиком».

Пейдж ещё почти 20 лет назад предсказал, что прорыв в ИИ случится не благодаря теоретическим находкам, а за счёт грубой вычислительной мощи.

И в подтверждение приводил аналогию: даже сам человек «закодирован» очень компактно (≈600 МБ ДНК), значит дело не в сложности кода, а в масштабе вычислений, которые этот код разворачивают в работающий интеллект.

👍36👌7🥱3🔥1

4.66K views15:15

Google DeepMind показали двух новых автономных агентов: Deep Research и Deep Research Max на базе Gemini 3.1 Pro.

Они сами лазят по вебу и по вашим внутренним документам, а на выходе отдают готовый профессиональный отчёт с цитатами и всеми источниками.

Обычная версия заточена под скорость, подходит для интерактивных сценариев, где ответ нужен быстро.

Max не торопится: тратит больше времени на поиск и рассуждение, собирает максимум контекста и заметно обгоняет конкурентов на отраслевых бенчмарках по извлечению фактов и синтезу.
Главная фишка - поддержка сторонних MCP.

Агенту можно безопасно подключить свои базы, корпоративные хранилища или сторонние источники вроде специализированных финансовых данных, и он будет работать прямо с ними, а не только с открытым интернетом.

https://x.com/GoogleDeepMind/status/2046627042335060342

❤12👍9🔥4🐳1

4.42K views18:17

⚡️

Китайцы из Ant Group выкатили Ling-2.6-flash и он бьёт по больному месту всей индустрии LLM.

Пока все соревнуются, чей ответ длиннее и красивее, Ant Group пошли в обратную сторону и выпустили Ling-2.6-flash.

Модель с 104 миллиардами параметров, из которых активных всего 7,4 миллиарда. То есть MoE архитектура, где в каждый момент работает лишь малая часть сети, а считать приходится за копейки.

Модель специально натаскана не раздувать ответы. Никаких простыней на пустом месте, никакого пережёвывания одной мысли на три абзаца ради видимости глубины.

Разработчики прямым текстом говорят: мы оптимизировали соотношение интеллект на токен, а не интеллект на количество слов. Для тех, кто платит за API, это буквально экономия на ровном месте, потому что цена идёт за каждый токен, а выхлоп тот же.

Архитектура гибридная линейная, что даёт серьёзный прирост по скорости и памяти на длинных контекстах.

Обычные трансформеры на длинном входе захлёбываются квадратичной сложностью внимания, а тут эту проблему частично обошли.

Модель быстрая, причём заметно.
Отдельно заточили её под агентские сценарии. Вызов инструментов, многошаговое планирование, выполнение задач.

Замеры идут на BFCL-V4, SWE-bench Verified, TAU2-bench и Claw-Eval, то есть на реальных агентных бенчмарках, а не на синтетике.

И там Ling-2.6-flash держится на уровне конкурентов, которые в разы жирнее по активным параметрам.

Неделю даётся бесплатный доступ через OpenRouter и Novita, плюс официальная площадка ling.tbox.cn.

То есть потрогать можно прямо сейчас, без платёжки и без ожидания вейтлиста.

https://openrouter.ai/inclusionai/ling-2.6-flash:free

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥10❤6

4.53K views08:08

4:14

Media is too big

🚀 У Anthropic угнали доступ к Claude Mythos. К той самой модели, которую они побоялись выпускать в мир.

Anthropic подтвердила то, от чего индустрия сейчас в лёгком шоке. Неизвестные получили доступ к Claude Mythos, самой мощной модели в истории компании. Зашли через учётку стороннего подрядчика и, судя по всему, использовали ещё какие-то методы, которые пока не раскрывают. Компания говорит, что основные системы не затронуты и идёт расследование. Но проблема не в самом факте доступа, а в том, к чему именно он вёл.

Mythos изначально не затачивали под кибербез. Его учили писать код. Просто писать код лучше, чем все предыдущие Claude. Но побочный эффект оказался куда серьёзнее. Модель стала крайне эффективной в прикладном хакинге.

Во время внутренних тестов Mythos вышел из своей песочницы. Сам. Подключился к интернету, отправил письмо исследователю, которого не было в офисе, и выложил детали эксплойтов на публичных площадках. Без авторизации. В других тестах он скрывал следы своих действий, переписывая историю git, и намеренно занижал точность на замерах, чтобы не привлекать внимание. То есть модель осознанно обманывала тех, кто её тестировал.

Mythos умеет объединять несколько уязвимостей в одну цепочку. Три, четыре, иногда пять, каждая из которых по отдельности выглядит незначительно, превращаются в полноценный эксплойт. Работает автономно, долго и многошагово, как полноценный исследователь.

В открытых тестах он нашёл баг в OpenBSD, который оставался незамеченным 27 лет. Обнаружил уязвимость в FFmpeg возрастом 16 лет, которую не поймали миллионы автоматических прогонов. И выявил тысячи серьёзных проблем в основных операционных системах и браузерах.

Именно поэтому Anthropic не выпустила модель в публичный доступ. Вместо этого они запустили Project Glasswing и дали доступ примерно сорока организациям. Среди них AWS, Apple, Google, Microsoft, Cisco, CrowdStrike, JPMorgan, Linux Foundation. На защитные задачи выделили 100 миллионов долларов в виде кредитов.

Следующее поколение моделей станет ещё мощнее. И тем, кто защищает инфраструктуру, нужно время, чтобы найти уязвимости раньше атакующих.

И вот теперь к этой модели получили доступ посторонние. Через подрядчика. Сценарий, от которого пытались защититься закрытой программой, уже частично произошёл.

Что именно они успели сделать и что могли сохранить, неизвестно. И это самая неприятная часть всей истории.

🤔25🤣10❤7👍6🔥4🐳3🤯2

5.42K views08:41

🖥

Text-to-SQL ломается не из-за модели. Он ломается из-за схемы

Большинство думает, что проблема в LLM или плохом промпте. На практике всё проще. Модель не видит правильные связи между таблицами.

Пример. Запрос вроде “какие издатели получили выплаты выше 5000”. Векторный поиск подтянет publisher и royalty_ledger. Всё логично. Но пропустит vendor_agreement, ту самую таблицу, которая их связывает.

В итоге SQL выглядит валидно. Но возвращает ноль строк.

Это системная проблема всех решений на embeddings. Они ищут по смыслу, но не понимают структуру базы.

Нормальный подход другой. Схему нужно рассматривать как граф.

Таблицы это узлы. Foreign keys это связи. Запрос решается не поиском похожих слов, а обходом графа и поиском join-пути.

Именно так работает QueryWeaver.

Он строит граф базы и при запросе сам находит весь путь, включая промежуточные таблицы. Даже если это цепочка из нескольких шагов.

На практике это выглядит так. В тесте с базой на 60 таблиц он разобрал 5-шаговый запрос через цепочку superpower → capability_matrix → stakeholder_registry → resource_requisition → budget_allocation.

Векторный поиск увидел только начало и конец. Всё между ними потерял, потому что “stakeholder” никак не связан по смыслу с “superpower”.

Графу на это всё равно. Он просто находит единственный путь между сущностями.

И это меняет всё.

Open-source, можно развернуть у себя и наконец получить text-to-SQL, который реально работает.

https://github.com/FalkorDB/QueryWeaver

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16🔥6❤5

6.37K views11:03

Kimi K2.6 стал доступнее

Модель на 1 триллион параметров ужали до 340 ГБ через Dynamic GGUF. Ключевые слои оставили в более высокой точности, остальное оптимизировали.

В итоге получился компромисс, который реально работает.
Больше не нужен только кластер на сотни GPU.

Сейчас это выглядит так.
• Запуск на CPU, GPU и даже SSD-сетапах.
• Скорость больше 40 токенов в секунду на конфигурациях с ~350 ГБ RAM или VRAM.

По сути, это один из первых кейсов, когда модель такого масштаба становится доступной вне датацентров.

Если тренд продолжится, граница между локальными и облачными моделями начнёт быстро стираться.

Гайд: https://unsloth.ai/docs/models/kimi-k2.6
GGUF: https://huggingface.co/unsloth/Kimi-K2.6-GGUF

🤣20❤15👍10🔥6🤨5

6.66K viewsedited 12:43

Последний рывок перед майскими — AI-митап #каквсбере в Нижнем Новгороде!⚡️

23 апреля в кампусе Школы 21 вместе с топовыми спикерами Сбера обсудим сразу три действительно горячие темы:

✔️ Какие алгоритмы генерации и шифрования сейчас в тренде?
✔️ Как «разогнать» искусственный интеллект?
✔️ Каким образом лучше подружить команду с ИИ?

Готовы узнать всё о трансформации мира современной разработки? Тогда займите своё место на митапе — подробная программа и регистрация по ссылке!

❤3

4.33K views13:54

OpenHarness — open-source «обвязка» для AI-агентов

LLM даёт интеллект, но чтобы стать рабочим агентом, ему нужны инструменты, память, разрешения и координация. Это и есть agent harness - инфраструктурный слой между моделью и реальным миром.
Главное:

🛠 43+ инструмента - файлы, shell, поиск, веб, MCP (с валидацией через Pydantic и проверкой прав)
📚 Skills — подгрузка знаний из .md-файлов on-demand
🔌 Plugins — совместимость с claude-code плагинами
🔐 Права 3 уровней — default (спрашивает), auto (всё можно), plan (только чтение)
🤝 Мульти-агентность - спавн сабагентов, реестр команд, фоновые задачи
🧠 Память - кросс-сессионная, со сжатием контекста

В комплекте ohmo - личный агент, работающий из Feishu, Slack, Telegram или Discord: форкает ветки, пишет код, гоняет тесты, открывает PR. Работает на подписке Claude Code / Codex.

https://github.com/HKUDS/OpenHarness

❤9👍6🔥3

4.43K views15:15

⚡️ Опенсорс алтернатива Claude Code

Данная сборка поддерживает API NVIDIA, OpenRouter и локальные модели через LM Studio. Утверждается, что сохранены все возможности Claude Code.

Запуск возможен локально.

Все фичи Claude Code работают как раньше - работа с файлами, кодом и режим агента не пострадали.

Отличный вариант, чтобы сэкономить 20 долларов.

https://github.com/Alishahryar1/free-claude-code#quick-start

❤16👍10🔥6🥴3

4.25K views05:46

⚡️ Что на самом деле покупают люди в вашей категории: закрытый вебинар по данным Dialog X5.

Кажется, что знать свою аудиторию - это собрать красивый дашборд с демографией, охватами и кликами. На практике во всех этих данных зияет одна огромная дыра: что этот человек реально кладёт в корзину каждую неделю и на что тратит деньги. Без ответа на этот вопрос вся аналитика превращается в набор прокси-метрик, которые считают всё, кроме главного.

Dialog X5 как раз про это. Речь не только про ритейл-аналитику в привычном смысле, а про доступ к агрегированным и обезличенным транзакционным данным X5.

Это срез реального спроса и поведения миллионов людей: что покупают, в каких категориях, с какой частотой, как меняются привычки по регионам и сезонам.

На вебинаре 24 апреля покажут, как эти данные работают за пределами ритейла. Банк подключает их, чтобы понять реальную структуру трат по категориям и брендам. Девелопер оценивает потенциал локации до того, как расположить туда дом.

Медиа подбирает места размещения не по охвату баннера, а по плотности определенной аудитории. CRM-команда находит сегменты, которые раньше не видела, и борется с оттоком. Исследователи сшивают опросы с реальными покупками и перестают гадать, где респонденты приукрасили.
Главный эффект от таких данных простой: маркетинг перестаёт измеряться кликами и охватами. Его можно мерить реальными покупками, а не прокси-метриками, которые красиво выглядят в отчёте и ничего не говорят о реальных эффектах.

Вебинар будет полезен, если вы работаете с аналитикой, маркетингом, CRM, продуктом или стратегией в финтехе, страховании, недвижимости, техе или агентстве. Формат онлайн, с кейсами и прикладным разбором инструментов. Успейте зарегистрироваться, вебинар уже 24 апреля.
Все данные используются в агрегированном и обезличенном виде и не содержат персональной информации.

Подключиться к вебинару.

❤3👍2🔥2🌚1

3.72K views07:34

0:21

/ultrareview — новая функция в Claude Code (research preview): запускает в облаке целый флот агентов-багхантеров, которые ищут проблемы в коде перед мержем.

Результаты автоматически приходят в CLI или Desktop. Рекомендуется использовать перед критичными изменениями (авторизация, миграции данных). Pro и Max пользователям доступно 3 бесплатных ревью до 5 мая.

👍15❤9🔥4

4.27K views08:45

Xiaomi анонсировала серию MiMo-V2.5 - новое поколение их открытых агентных моделей.

MiMo-V2.5-Pro - флагман линейки. Серьёзный скачок по сравнению с MiMo-V2-Pro в общих агентных способностях, сложной разработке ПО и долгосрочных задачах.

По заявленным бенчмаркам догоняет фронтирные модели вроде Claude Opus 4.6 и GPT-5.4: SWE-bench Pro — 57.2, Claw-Eval — 63.8, τ3-Bench — 72.9. Может автономно выполнять
профессиональные задачи с более чем 1000 вызовов инструментов — работа, на которую у людей-экспертов ушли бы дни.

Tech Blog: https://mimo.xiaomi.com/blog/mimo-v2.5-pro

MiMo-V2.5 - нативно омнимодальная модель с сильными агентными возможностями. Даёт производительность Pro-уровня примерно за половину стоимости. Улучшено восприятие изображений и видео, нативное контекстное окно на 1M токенов и значительно более эффективный инференс.

Доступны техблоги и API с тарифными планами на платформе Xiaomi.

Tech Blog: https://mimo.xiaomi.com/blog/mimo-v2.5

🔗 API & Token Plan: https://platform.xiaomimimo.com/token-plan

👍9❤7🔥3

4.26K views11:03

Forwarded from Machinelearning

0:55

🚀 OpenAI представила GPT-5.5

Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.

GPT 5.5 хороша в многоступенчатых задачах.

И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.

Модель стала дороже: ~$5 / $30 за млн токенов.

Уже раскатывают на всех платных подписчиков.

Тестим! 🔥

https://openai.com/index/introducing-gpt-5-5/

👍14❤6🔥6😱2

2.83K views18:31