321K subscribers
4.1K photos
743 videos
17 files
4.65K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MUVERA: уравниваем в скорости многовекторный и одновекторный поиск.


MUVERA - алгоритм, разработанный Google Research, который сводит сложную задачу многовекторного поиска обратно к простому и быстрому MIPS, как в подходах с одним вектором.

Суть проста: вместо того чтобы работать с громоздким набором векторов, MUVERA сжимает его в единый вектор фиксированной длины, так называемый Fixed Dimensional Encoding (FDE). Главный трюк в том, что скалярное произведение этих новых FDE-векторов очень точно аппроксимирует исходную, «честную» метрику Чамфера.

На практике процесс выглядит как двухэтапный конвейер. Сначала MUVERA генерирует FDE для всех документов в базе и индексирует их с помощью обычного MIPS-солвера. Когда приходит запрос, для него тоже создается FDE, и система молниеносно находит небольшой список кандидатов. А уже затем этот короткий список переранжируется с использованием оригинальной, медленной, но точной метрики Чамфера. На выходе получаем и скорость, и качество.

В практическом сравнении с предыдущим SOTA методом PLAID, MUVERA показывает в среднем на 10% более высокую полноту выдачи при сокращении задержки на 90%. Чтобы достичь того же качества, алгоритму требуется отобрать в 5-20 раз меньше кандидатов для финального переранжирования.

Более того, эти FDE-векторы отлично сжимаются — до 32 раз с минимальной потерей качества.

Для тех. кто хочет попробовать, в репозитории проекта на Github есть реализации MUVERA на Python и C++ .


📌Лицензирование: Apache 2.0


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MUVERA #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍5822🔥17🥰5😁1
🤔 Хммм… интересно, почему же Grok снова на первом месте в апсторе в Японии?)

Grok Anime-Waifu: новый Ghibli-хайп?

Аниме-вайфу от Grok сейчас переживает тот же всплеск интереса, что и Ghibli‑стиль после выхода инструмента генерации изображений от ChatGPT🎌

xAI поймали незанятую нишу: 3D-аватары с крутым голосовым режимом и небольшой провокацией. Как бы вы ни относились к этой теме — массовый рынок тут есть, и он пока был пуст.

CharacterAI всё ещё в топ‑10 самых посещаемых AI-приложений в мире. Молодёжь массово проводит там часы в общении с вымышленными персонажами. Это о многом говорит — но мы не будем давать оценок деградация это или нет.

Важно другое: ни Google, ни OpenAI, ни Microsoft пока не вышли с 3D-аватарами с продвинутым голосовым режимом.

Все знали, что это огромный рынок, но опасались репутационных последствий — вспомните скандалы вокруг CharacterAI в прошлом году.

А xAI рискнули — и пока пожимают плоды . Аудитория молодая, хайп органический, конкуренты только приглядываются к теме. Быть первым в такой категории — значит занять особое место в головах (пустых и не очень) пользователей.

Так что да: xAI сделали ставку — и, похоже, угадали.


@data_analysis_ml
83👍36😁23🔥11🤣7😐5👏1🤔1
📌 EXAONE 4.0 — новая LLM от LG, уверенно конкурирующая с топами

LG AI Research представила EXAONE 4.0 , свою ризонинг-модель (предыдущие версии).

Разработчики называют ее «гибридным ИИ», и это не просто маркетинговый ход. По сути, это сплав классических языковых способностей с мощным механизмом логических рассуждений, унаследованным от предшественника EXAONE Deep.

Главная фишка — пошаговый подход к решению задач, основанный на выстраивании цепочки мыслей. Это позволяет модели хорошо справляться не только с текстами, но и со сложными областями вроде математики, науки и программирования.

В LG решили не размениваться на мелочи и не придумывать собственные удобные бенчмарки, а сразу вышли на глобальную арену.

Модель показала себя более чем достойно на самых сложных и актуальных тестах. Например, на GPQA-Diamond, который проверяет научные знания, она набрала 75.4 балла, а в математическом AIME 2025 — все 85.3. Судя по графикам, EXAONE 4.0 уверенно конкурирует как с открытыми, так и с передовыми закрытыми моделями на английском языке, а также демонстрирует отличные результаты на корейском и недавно добавленном испанском.

🟢На графиках видно: EXAONE 4.0 уверенно конкурирует с передовыми закрытыми и открытыми LLM на английском, а также остаётся одной из лучших на корейском рынке.

🟢 Модель вышла в двух вариантах:
1. EXAONE 4.0 Professional (32B параметров) — заточена под медицину, право и другие сложные предметные области. Уже сдала 6 национальных сертификационных экзаменов в Корее.
2. EXAONE 4.0 On‑Device (1.2B параметров) — работает офлайн прямо на устройстве. При этом она вдвое компактнее, но быстрее предыдущей версии. Идеально для задач с требованиями к приватности и скорости отклика.

Еще:
- Обучена на 14T токенах.
- Поддерживает Model Context Protocol (MCP)
- Поддерживает Function Calling — интеграция с внешними инструментами и API прямо через LLM.

📌 многозначная, высокая точность, локальная — всё это делает EXAONE одним из самых интересных релизов, в общем словом - топовая моделька.

🟠Подробнее: https://www.lgresearch.ai/blog/view?seq=576
🟠Model: https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥2510🥰10
🗣️ Voxtral: возвращение голоса как интерфейса

Голос был первым пользовательским интерфейсом — задолго до письма или клавиатуры. Сегодня, когда технологии всё ближе к человеку, он снова становится ключевым способом взаимодействия. Но существующие голосовые решения либо закрыты и дорогие, либо недостаточно точны и гибки.

Команда Voxtral представила открытые модели понимания речи, призванные закрыть этот разрыв.

🧠 Что такое Voxtral:
• Две модели: 24B (для продакшена) и 3B (для локальных и edge-сценариев)
• Открытая лицензия Apache 2.0
• Доступ через API и оптимизированный endpoint для транскрипции
• Разработка на основе Mistral Small 3.1

📌 Возможности моделей:
• Распознавание аудио до 30–40 минут (32k токенов контекста)
• Встроенные вопросы и ответы, суммирование, мультиязычность
• Автоматический вызов функций из голоса — API, скрипты, бэкенды
• Высокая точность понимания текста и смысла
• Поддержка языков: английский, испанский, французский, немецкий, хинди, итальянский, португальский и др.

🧩 Идеально подходит для:
- Голосовых ассистентов
- Поддержки клиентов
- Звонков и интервью
- Автоматизации рабочих процессов по голосу

🔗 https://voxtral.ai

@ai_machinelearning_big_data


#ml #ai #voxtral #mistral
1👍6727🔥23👏3
Media is too big
VIEW IN TELEGRAM
✔️ AMD вслед за Nvidia возобновляет поставки ИИ-чипов в Китай.

AMD подтвердила, что планирует возобновить поставки ускорителей MI308 в Китай. Новость последовала всего через несколько часов после аналогичного объявления от Nvidia о разрешении на продажу чипов H20. Министерство торговли США уведомило AMD, что ее заявки на экспортные лицензии будут рассмотрены с высокой вероятностью одобрения.

Это событие - серьезный сдвиг в политике Вашингтона, который ранее ввел жесткие ограничения на экспорт ИИ-чипов. Запреты нанесли значительный финансовый ущерб американским компаниям, AMD оценивала свои потенциальные потери в 800 миллионов долларов. Отмена ограничений последовала за критикой со стороны лидеров индустрии, которые утверждали, что подобные запреты неэффективны и лишь стимулируют Китай к созданию собственных технологий, ослабляя глобальное лидерство США в сфере ИИ.
tomshardware.com

✔️ AWS открыла ранний доступ к кодинг-ассистенту Kiro.

Amazon запустил превью Kiro - IDE на основе ИИ. В отличие от простых ассистентов для вайб-кодинга, Kiro позиционируется как инструмент для полного цикла разработки: от концепции до вывода в продакшен.

Ключевыми особенностями стали модули Specs и Hooks. Specs преобразовывают общие запросы в структурированные техзадания, пользовательские истории, диаграммы и схемы API, которые остаются синхронизированными с кодом. Hooks - это агенты, работающие в фоне: они могут обновлять тесты при сохранении компонента или проверять код на безопасность перед коммитом.

Kiro построена на базе Code OSS и совместима настройками и плагинами VS Code. В режиме отрытого превью среда использует модели от Anthropic. Продукт доступен в трех тарифах: Free, Pro и Pro+.
kiro.dev

✔️ Anthropic представила платформу для финансового анализа на базе Claude.

Anthropic запустила комплексное решение для анализа рынков и принятия инвестиционных решений. Платформа объединяет различные источники данных: от рыночных котировок до внутренних баз на платформах Databricks и Snowflake в едином интерфейсе. В основе лежит семейство моделей Claude 4, которые, по заявлению компании, показывают высокие результаты в финансовых задачах.

Платформа глубоко интегрирована с ведущими поставщиками данных: S&P Global, FactSet, PitchBook и Snowflake. Для внедрения в корпоративную среду привлечены консультанты из Deloitte, KPMG и PwC. Платформа уже доступна на AWS Marketplace, а в будущем появится и в Google Cloud.
anthropic.com

✔️ В NotebookLM появился новый функционал.

Google расширила возможности NotebookLM, добавив в него курируемую библиотеку публичных блокнотов. В ней представлен контент от крупных изданий, исследователей, авторов и некоммерческих организаций. Пользователи могут читать оригинальные тексты, задавать по ним вопросы и получать саммари со ссылками на первоисточники.

Обновление также принесло новые функции: автоматически сгенерированные аудиообзоры и майнд-карты для быстрой навигации по теме. Среди первых доступных материалов: советы по долголетию, путеводитель по Йеллоустону, произведения Шекспира и финансовая отчетность крупных компаний.
blog.google

✔️ Мира Мурати анонсировала свой первый продукт.

Thinking Machines Lab, который привлек 2 млрд. долларов от фонда a16z, представит свой первый продукт в ближайшие пару месяцев.

Он будет мультимодальным, содержать значительный компонент открытого кода и предназначен для исследователей и стартапов, разрабатывающих свои собственные модели.

Mira Murati в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍5224🔥12😁1
🌟 MoVieS: Синтез 4D-видов с учетом движения.

ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение.

В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве.

Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент.

Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»:

🟠Depth Head - предсказывает карту глубины;

🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга;

🟢Motion Head - самая главная, оценивает смещение каждого примитива.

Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео.

MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут.

При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения.

Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения.

⚠️ Кода для инференса, обучения и чекпоинтов пока нет, но обещают.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #4D #MoVieS #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍5233🔥14🐳1
📌 Чат-боты начинают всерьез теснить традиционный поиск.

Пока мы с вами обсуждаем архитектуры новых моделей, на наших глазах разворачивается битва за конечного пользователя, и чат-боты, похоже, начинают в ней побеждать.

Аналитики из Sensor Tower опубликовали отчет, который в сухих цифрах показывает, что ChatGPT, Gemini и другие их собратья перестали быть игрушкой для IT-сообществ и превратились в реальную угрозу для поисковых гигантов.

Sensor Tower - платформа цифровой аналитики и один из авторитетных источников аналитики мобильных приложений, цифровой рекламы, розничной медиарекламы и данных об аудитории для крупнейших мировых брендов и создателей приложений.


🟡Главный индикатор: изменение пользовательских привычек.

Аудитория ChatGPT уже перевалила за 500 млн. MAU, причем этот рубеж был достигнут менее чем за 2 года. Но что еще важнее, его аудитория становятся нетехнической.

Год назад 44% всех запросов к ChatGPT были связаны с разработкой ПО, то сегодня эта доля упала до 29%.

А вот категория «Экономика, финансы и налоги» взлетела с 4% до 13%.

Проще говоря, люди все чаще спрашивают у ИИ не как написать код, а как составить бюджет или разобраться в инфляции. Это означает выход в мейнстрим.

🟡Самая показательная метрика из отчета.

В апреле 2025 года время, проведенное пользователями в приложении ChatGPT, взлетело на 98% по сравнению с прошлым годом. За тот же период время, проведенное в приложениях традиционных поисковиков, упало на 3%.

Более того, уже почти треть (31%) пользователей поисковых приложений в США также активно используют ChatGPT. Год назад их было всего 13%. Аудитории начинают пересекаться, и чат-бот явно перетягивает одеяло на себя.

🟡Куда ChatGPT отправляет своих пользователей дальше.

В топе реферальных ссылок: YouTube, Wikipedia и National Library of Medicine. То есть люди приходят за знаниями. Но тут же рядом Amazon (помощь в покупках), GitHub и arXiv (IT и ML). Забавно, что сам Google, как поисковая система, находится на 6 месте в этом списке.

Чат-бот становится новой точкой входа в интернет, которая сама решает, куда направить пользователя.

🟡Еще из интересного.

Ранние последователи ИИ, установившие ChatGPT еще в 2023 году, уже проводят в приложениях Google на 6% меньше времени. Новички пока не изменили привычек, но это, скорее всего, лишь вопрос времени.

Все эти показатели указывают на то, что борьба за "реферал от ИИ" становится главным полем боя для брендов.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6424🔥14🫡4🤬1👌1💋1🤗1