335K subscribers
4.13K photos
753 videos
17 files
4.66K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Обучение нейросети поиску локаций по самым непонятным запросам: опыт API Яндекс Карт

Команда API Яндекс Карт поделилась тем, как модернизировала Геокодер. Это инструмент, который способен найти точную локацию по запросу "Мяснитская 8" или вообще "Келес ауданы Сыртав 2".

Инженеры построили весь Геокодер с помощью deep learning, который:
- Работает даже с опечатками и народными названиями
- Понимает адреса на разных языках
- Запускается в новой стране за пару недель
- Использует под капотом контрастивное обучение, active learning, аугментацию и LLM-генерацию
- Показывает результат на 14% точнее предыдущей версии

По заверениям разработчиков, чтобы поддерживать такой Геокодер, достаточно всего пять ML-инженеров.

⭐️ Как это работает и что под капотом — читайте на Хабре.

▪️Статья

@ai_machinelearning_big_data

#ai #ml #machinelearning #deeplearning
Please open Telegram to view this post
VIEW IN TELEGRAM
41👍27🔥9🤬2🤣1
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10226🔥10👀2
✔️ Макрон объявил, что Франция планирует инвестировать в развитие ИИ 109 миллиардов евро в ближайшие годы.

Он уточнил, что среди инвесторов французских проектов в области ИИ будут компании из Объединенных Арабских Эмиратов, Соединенных Штатов, Канады и самой Франции.

Кроме того, Макрон подчеркнул намерение Парижа сотрудничать с Нью-Дели и Пекином для продвижения технологий искусственного интеллекта. «Мы стремимся к совместной работе с Индией», – сказал он, добавив, что Франция также намерена взаимодействовать с Китаем и Соединенными Штатами, однако не хочет зависеть ни от одной страны.

Относительно обсуждений о возможном запрете использования китайского чат-бота DeepSeek в некоторых странах, Макрон выразил мнение, что запрет технологических решений лишь на основании их происхождения является неоправданным шагом.
Новость

✔️OpenAI дебютировал на Super Bowl, выпустив рекламу ChatGPT стоимостью 14 миллионов долларов.
Видео

✔️ ByteDance показали новый генератор видео Goku.

- Goku: генеративная модель видео на основе потоков.
- Goku+: Модель, которая позиционируется, как модель для генерации видеорекламы и обещает быть в 100 раз дешевле, чем традиционные методы создания видео-рекламы.
Аrxiv

✔️ Свежий гайд, который поможет вам тренировать свой собственный ризониг LLM.

С этим ноутбуком примерно за 2 часа можно обучить модель Qwen 0.5B на математическом наборе данных GSM8K, используя обучение с подкреплением!
Colab Demo

✔️ LeRobot — это образовательный проект, направленный на создание бюджетного робота, стоимость каждой руки которого составляет всего 110 долларов. С помощью обычного ноутбука пользователи могут обучать робота различным навыкам.

Проект предлагает платформу с готовыми моделями, наборами данных и инструментами для работы с робототехникой на базе PyTorch.

На данный момент доступны предварительно обученные модели, демонстрационные среды для симуляций, а также готовые скрипты для обучения и управления реальными роботами.

Также предоставляются рекомендации по ведению логов и оценке моделей, а также ссылки на исследовательские материалы и примеры кода для профилирования.
Github

✔️ Стартап Ильи Суцкевера, сооснователя OpenAI, оценили в $20 миллиардов.

Safe Superintellgence(SSI), основанная в июне 2024, еще ничего не выпускает и не зарабатывает, так как первым продуктом обещают сразу ни больше ни меньше — safe AGI.

А пока просто посмотрите на сайт компании, которая УЖЕ привлекла миллиард долларов и собирается привлечь еще. Сила имени.
ssi.inc.

@ai_machinelearning_big_data


#openai #deeplearning #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #qwen #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍3812😁7🥱3🤔2🌚1😭1
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ СuML от NVIDIA: Scikit-learn на скорости GPU – без единой строчки нового кода!

Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!

Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU! 🔥

Как это работает?

Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.

Теперь, когда вы вызываете, например, KNeighborsClassifier или PCA из sklearn:

▶️Патч проверяет, есть ли у вас GPU NVIDIA.
▶️Проверяет, есть ли в cuml быстрая GPU-версия этого алгоритма.
▶️Если да – запускает ускоренную версию на GPU! 🏎️
▶️Если нет (нет GPU или алгоритм не поддерживается) – спокойно запускает обычную CPU-версию scikit-learn.

Ключевые преимущества:

✔️ Нулевые изменения кода: Ваш scikit-learn код остается прежним. Добавляете только 2 строчки:
import cuml.patch и cuml.patch.apply().
✔️ Колоссальное ускорение: Получите прирост производительности на порядки для поддерживаемых алгоритмов (KNN, PCA, линейные модели, Random Forest (инференс), UMAP, DBSCAN, KMeans и др.) за счет мощи GPU.
✔️Автоматическое переключение между GPU и CPU. Ваш скрипт будет работать в любом случае.

Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.

👇 Как использовать:

Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):


python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend


Добавьте в начало скрипта:


import cuml.patch
cuml.patch.apply()


Используйте scikit-learn как обычно!

Попробуйте и почувствуйте разницу! 😉

Блог-пост
Colab
Github
Ускоряем Pandas

@ai_machinelearning_big_data


#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍79🔥4510💘3😁1
🌟 Step-Video-TI2V: новый опенсорс генератрор видео из текста и изображения.

Команда StepFun AI выпустила Step-Video-TI2V модель для генерации видео (до 102 кадров), производительностью SOTA.
Принимает на вход текстовые описания и изображенияъ 🖼️ + ✍️ = 🎬

На бенчмарке VBench-I2V, моделька показывает лучшие результаты по сравнению с другими современными открытыми моделями для генерации видео из изображения и текста, а также лидирует в публичном рейтинге.

Ключевые особенности:

Контроль движения: Модель предлагает достойный баланс между стабильностью движения и гибкостью, позволяя управлять динамикой в кадре.
Разнообразные движения камеры: Поддерживается имитация различных движений виртуальной камеры для создания более кинематографичных эффектов.
Мастер аниме-стиля: Step-Video-TI2V особенно преуспевает в генерации видео в стиле аниме, открывая новые возможности для фанатов и создателей контента!
Поддержка разных разрешений: Модель может генерировать видео в нескольких вариантах размеров.

🟢GitHub
🟢Попробовать
🟢ComfyU
🟢HF
🟢Modelscope
🟢Tech Report

@ai_machinelearning_big_data



#AI #VideoGeneration #TextToVideo #ImageToVideo #GenerativeAI #MachineLearning #StepFunAI #ИИ #ГенерацияВидео #Нейросети #Аниме #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4111🔥5🤔2🌚1
🔥 BPT - это новый способ токенизации данных для создания 3D-моделей.

Ключевое достижение: Метод обладает рекордно высоким (State-of-the-Art) коэффициентом сжатия данных - 75%!

BPT использует блочную индексацию и агрегацию патчей, что позволяет уменьшить длину последовательностей мэшей примерно на 75% по сравнению с исходными данными.

Это значительно повышает эффективность обработки и генерации высокодетализированных 3D-моделей.

Преимущество: Такое сжатие позволяет эффективно генерировать высокодетализированные 3D-модели, содержащие более 8000 граней (полигонов).

BPT - очень перспективный подходя для 3D-моделирования.

Он позволяет создавать детализированные и топологически точные модели с использованием компактных и эффективных представлений данных.

🟡Подробнее
🟡Github

@ai_machinelearning_big_data


#ml #ai #machinelearning #3d
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥206
🔥 DeepSeek-GRM

Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).

✔️ Ключевая идея: Использовать дополнительные вычисления во время инференса для динамического улучшения и масштабирования оценки вознаграждения, отходя от чисто статических RM.

✔️ Как работает: Комбинирует генеративное RM (GRM), метод обучения Self-Principled Critique Tuning (SPCT - модель учится сама генерировать принципы и критику через RL), параллельный сэмплинг и голосование во время инференса.

✔️ Результаты: Подход превосходит существующие базовые модели на RM-бенчмарках, не теряя в качестве.

DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.

DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.

🟡Метод обучения SPCT улучшает способность GRM к генерации вознаграждения для общих задач (generalist capability) и его масштабируемость во время инференса.

LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.

Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.

🟡 Подробности в статье

#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥167🤬1
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope

@ai_machinelearning_big_data


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥3216🤣12
🚀Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM

Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.

🟢 Как работает метод:
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.

🟢Результаты:
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.

🟢 Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).

Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).

🟢Вывод:
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.

#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency

🟠Почитать подробно

@ai_machinelearning_big_data


#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍111🔥23193🥰3
🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
🟢 Блог: https://vision.hunyuan.tencent.com
🟢API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data


#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4515🔥13🥱1
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени


Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.

А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀

Возможности:

🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира

Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.

Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей

Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).

Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени

🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io

@ai_machinelearning_big_data

#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍3024🥱5😐4
Media is too big
VIEW IN TELEGRAM
🎧 Perch 2.0 — AI, который слушает природу и спасает вымирающие виды.

DeepMind выпустили Perch 2.0 — компактную supervised-модель для биоакустики.

Без миллиардов параметров, без сложного self-supervised обучения — просто аккуратная модель, которая побила все бенчмарки и уже работает в полевых исследованиях.

🌱 Почему это важно
Звуки природы — это источник данных о биоразнообразии.
По аудиозаписям можно понять:
- какие животные живут в лесу,
- сколько их,
- размножаются ли они,
- не вытесняются ли они человеком.

Но расшифровка аудио — адский труд: в одном часе записи из тропиков десятки накладывающихся голосов.

🐦 Что умеет Perch 2.0
Perch 2.0 — универсальный эмбеддер для звуков животных.
Берёт 5 секунд аудио → выдаёт вектор, с которым можно:
- находить похожие записи,
- кластеризовать звуки,
- обучать простой классификатор для новых видов (few-shot).

Работает без GPU и без дообучения.

🛠 Архитектура
- Основa: EfficientNet-B3 (12M параметров).
- Три головы:
1. Классификация ~15k видов.
2. Прототипная — создаёт семантические логиты для distillation.
3. Source prediction — угадывает источник записи.
- Обучение в два шага:
1. Прототипная голова учится сама.
2. Её логиты становятся soft-label’ами для основной (**self-distillation**).

📊 Результаты
- SOTA на BirdSet и BEANS (ROC-AUC, mAP).
- Отличная переносимость на морских данных (киты, дельфины), которых почти не было в тренировке.
- Всё это — без fine-tuning, только фиксированные эмбеддинги.

Главный вывод
Perch 2.0 показывает, что:
🟢 качественная разметка,
🟢 простая архитектура,
🟢 чёткая постановка задачи
могут быть важнее, чем «бесконечные параметры» и сложные LLM.

🌍 Что это меняет
- Биологам — быстрый анализ джунглей Бразилии или рифов без написания своих моделей.
- ML-инженерам — наглядный пример, как обучать компактные сети без потери качества.
- Исследователям — напоминание: не всегда нужен GPT-4, чтобы сделать полезный инструмент.

🟠Github: https://github.com/google-research/perch-hoplite
🟠Подробнее: https://deepmind.google/discover/blog/how-ai-is-helping-advance-the-science-of-bioacoustics-to-save-endangered-species/
🟠Статья: https://arxiv.org/abs/2508.04665

@ai_machinelearning_big_data


#DeepMind #AI #Bioacoustics #MachineLearning #Perch #Ecology
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8746🔥24❤‍🔥5
🎙️ NVIDIA выпустили Canary-1B v2 — открытую модель для распознавания и перевода речи, которая работает с 25 европейскими языками.

Что она умеет:
- 📝 Точное ASR (распознавание речи) и AST (перевод речи) между английским и 24 другими языками.
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.

Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.

Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы: .wav и .flac, моно 16 кГц.
- Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.

Где пригодится:
🟢 голосовые ассистенты
🟢 субтитры и перевод видео
🟢 чат-боты с речевым вводом
🟢 real-time анализ речи

Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.

🟠 Попробовать можно здесь: https://huggingface.co/nvidia/canary-1b-v2
🟠SET: https://huggingface.co/datasets/nvidia/Granary
🟠PARAKEET: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

@ai_machinelearning_big_data


#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥39162
🐋 Гигантский кит приплыл на HF!

🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.

Следите за новостями, волна только набирает силу.

685B параметров
📏 Контекстное окно 128k

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

@ai_machinelearning_big_data

#DeepSeek #AI #LLM #V3_1 #MachineLearning
🔥9825👍24🐳6😨5🎉1
☀️ Surya: фундаментальные модели ИИ для гелиофизики и предсказания воздействии солнца на космическое и земное пространство.

NASA и IBM
выпустили в опенсорс Surya Heliophysics Foundational Model — крупномасштабную ИИ-модель, обученную на данных за 9 лет наблюдений за космосом спутника Solar Dynamics Observatory (SDO).

🟢 Зачем это нужно:
Солнечные бури влияют на нашу жизнь:
🛰️ могут вывести из строя спутники
✈️ нарушить работу навигации в самолётах
вызвать перебои с электричеством
👨‍🚀 создать радиационную угрозу для астронавтов

Иногда вспышки сопровождаются потоками частиц, которые повреждают электронику и опасны для здоровья.

🟠 Чем интересна Surya:
- Обучена на 9 годах наблюдений за Солнцем
- Позволяет предсказать вспышки на солнце за 2 часа до их
- Показывает точное место на Солнце, где произойдёт вспышка
- Помогает заранее подготовиться авиации, энергетике и связи к возможным проблемам.

🚀 IBM и NASA десятилетиями работали над моделями климата и погоды на Земле. Теперь они перешли к прогнозированию «космической погоды».

HF: https://huggingface.co/nasa-ibm-ai4science
Модели: https://huggingface.co/nasa-ibm-ai4science/models
Датасеты: https://huggingface.co/nasa-ibm-ai4science/datasets

@ai_machinelearning_big_data

#AI4Science #Heliophysics #OpenScience #MachineLearning #NASA #IBM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10522👍15🤩2🤣2
🚀 Grok 2.5 теперь можно запускать локально!

Unsloth выкатили оптимизированную версию модели:

🔹 270B параметров работает на обычном Mac с 128GB RAM (~5 токенов/сек)
🔹 Размер уменьшен с 539GB до 118GB (–80%)
🔹 Ключевые слои модели сохранены в 8-битном формате, а все остальные сжаты с помощью динамического 3-битного GGUF.

🟢Гайд: https://docs.unsloth.ai/basics/grok-2
🟢 GGUF: https://huggingface.co/unsloth/grok-2-GGUF

@ai_machinelearning_big_data

#AI #xAI #Grok2 #LLM #OpenSource #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13722👍22😁15🥱10🗿6🤣3🤔2💘1
🎙️ Qwen3-ASR — универсальная модель распознавания речи!

🟢Поддержка EN/CN + ещё 9 языков: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
🟢 Авто-определение языка
🟢 Модель умеет распознавать речь даже в сложных условиях — когда человек поёт, читает рэп или говорит под фоновую музыку. — WER <8% (ошибки меньше 8 слов на каждые 100)
🟢 Работает даже в шуме, низком качестве и на расстоянии
🟢 В модель можно добавить свои слова/термины/имена и фразы, и она будет их правильно распознавать

API:https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031
ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
Blog:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

@ai_machinelearning_big_data

#ASR #SpeechRecognition #Qwen3 #AI #MachineLearning #DeepLearning #VoiceAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥1713🐳3
🧠 ИИ генерирует научный код лучше людей.

Сегодняшний дамп статей от Google Research — это не очередной инкрементальный апдейт, а знаковое событие.

Исследователи представили систему, которая автоматически создаёт экспертное ПО для научных задач, и она уже побеждает на профессиональных лидербордах.

Это не просто ещё один кодогенератор.

Система использует LLM (Gemini), управляемую древовидным поиском (Tree Search) — алгоритмом из мира AlphaGo. Её цель — не просто скомпилировать код, а итеративно улучшать его, максимизируя конкретную метрику качества (score) на реальных данных. Учёные называют такие задачи «scorable tasks».

Что система сделала на практике:

1. Биоинформатика (scRNA-seq): Открыла 40 новых методов для интеграции данных single-cell, которые побили лучшие человеческие методы на публичном лидерборде OpenProblems. ИИ не просто скопировал известный метод BBKNN, а улучшил его, скомбинировав с другим алгоритмом (ComBat), до чего люди не додумались.
2. **Эпидемиология (COVID-19):** ИИ сгенерировал 14 моделей, которые в течение всего сезона 2024/25 стабильно показывали результаты лучше, чем ансамбль CDC и любые отдельные модели при прогнозировании госпитализаций.
Работа с временными рядами обычно очень сложна, но здесь ИИ справился и превзошёл существующие подходы.

3. Другие области: Система также показала SOTA в:
· Сегментации спутниковых снимков (DLRSD benchmark, mIoU > 0.80)
· Прогнозировании нейронной активности целого мозга zebrafish (ZAPBench)
· Прогнозах временных рядов (GIFT-Eval benchmark)
· Численном решении сложных интегралов, где стандартная scipy.integrate.quad() падает.

🟠Как это работает?

Вместо того чтобы с нуля генерировать код, система начинает с существующего решения (например, вызова quad() или простой модели) и запускает древовидный поиск. На каждом шаге LLM предлагает «мутации» — варианты изменения кода. Дерево поиска решает, какую ветку развивать дальше, балансируя между эксплуатацией (улучшение текущего лучшего решения) и исследованием (попытка радикально новых идей).

Ключевая фишка — система умеет интегрировать научные идеи извне. Ей можно скормить PDF научной статьи, и она попытается реализовать описанный там метод. Более того, ИИ может комбинировать идеи из разных статей, создавая гибридные методы, которые и приводят к прорыву.

🟠Что это значит?

Это не замена учёным. Это мощнейший инструмент усиления. Система за часы прорабатывает и тестирует идеи, на которые у исследовательской группы ушли бы недели или месяцы. Она без устали перебирает «иголки в стоге сена» — те самые нетривиальные решения, которые ведут к скачку в качестве.

Пока что система требует чётко определённой метрики для максимизации. Но для огромного пласта эмпирической науки (от биологии и медицины до климатологии и астрофизики) это и есть основной способ оценки гипотез.

Вывод: Это один из самых убедительных на сегодня шагов к реальному ИИ-ассистенту для учёных. Он не просто отвечает на вопросы — он проводит вычислительные эксперименты и находит решения, превосходящие человеческие.

🟢Оригинал статьи: An AI system to help scientists write expert-level empirical software
🟢Код и примеры решений: github.com/google-research/score

@ai_machinelearning_big_data

#AI #Science #MachineLearning #LLM #Research #GoogleAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
184🔥39👍20🤔6🤣5😐5🥰2❤‍🔥1👌1
⚡️ Александр Мордвинцев, исследователь из Google, создал цифровые системы на основе клеточных автоматов, где каждая клетка взаимодействует только со своими соседями.

Эти нейронные клеточные автоматы (Neural Cellular Automata) способны самособираться в заданные формы и даже восстанавливаться после повреждений.

В *Quanta Magazine* рассказали о том, как учёные научились обучать искусственные "клетки" собираться в заданные формы. Это похоже на игру «Жизнь» (*Game of Life*), но наоборот.

🧩 Что такое Game of Life?
Это простая компьютерная модель: есть сетка из клеток, у каждой клетки всего два состояния — «жива» или «мертва». Жизнь клетки зависит от соседей (например, если вокруг слишком много соседей, клетка умирает).
Обычно мы задаём правила и просто смотрим, что получится.
А теперь учёные сделали наоборот: сначала задаём цель (например, фигуру), а потом подбираем правила так, чтобы клетки сами в неё собрались.

⚙️ Что изменили учёные?
1. Непрерывные состояния - клетка не просто «вкл/выкл», а может быть наполовину активна. Это как лампочка с плавным регулятором яркости.
2. Скрытые переменные - у каждой клетки есть «внутренние параметры», которые влияют на её поведение. Представь, что у клетки есть «настроение» или «память», которое не видно исследователю напрямую.
3. Асинхронное обновление — клетки меняются в случайное время, а не все сразу. Это ближе к реальной жизни, где всё развивается не идеально синхронно.

💡 Зачем это нужно?
- Восстановление после повреждений: если часть фигуры «сломать», клетки могут достроить её заново.
- Децентрализация: нет главного управляющего - каждая клетка действует локально, но вместе они формируют систему.
- Устойчивость к шуму: клетки учатся справляться с хаосом и случайностями, а не просто повторяют выученный рисунок.

🟠Какие есть ограничения?
- Пока это работает для картинок и форм, но не для сложных живых организмов.
- Чтобы система умела «регенерировать», её нужно специально тренировать.
- Перенести эту идею в настоящие биологические клетки или роботов сложно — там много физических ограничений.

🟠 Где это можно применить?
- Медицина - модели самовосстановления тканей.
- Робототехника - рой роботов, которые без команды сверху сами собираются в нужную конструкцию.
- Материалы будущего — «умные» кирпичики или детали, которые сами подстраиваются под окружение.
- Новые вычислительные системы - компьютеры без центрального процессора, где решения рождаются распределённо.

Учёные показали, что нейронные клеточные автоматы можно рассматривать как модель эволюции: геном не задаёт форму напрямую, а запускает процесс её построения, что делает системы гибкими и адаптивными.

Главное отличие от природы в том, что эволюция не имеет цели, а автоматы обучают под задачу.

Эти модели предлагают новый тип вычислений: каждая клетка взаимодействует только с соседями, что делает архитектуру распределённой и потенциально энергоэффективной.

Уже есть впечатляющие результаты — от распознавания цифр и умножения матриц до решения задач вроде IQ-тестов и управления роями роботов, которые начинают вести себя как единый организм.

В итоге работы Мордвинцева соединяют биологию, компьютеры и робототехнику, возвращая к идее, что жизнь и вычисления — две стороны одного процесса.

🟢 Полная статья: https://www.quantamagazine.org/self-assembly-gets-automated-in-reverse-of-game-of-life-20250910/

@ai_machinelearning_big_data

#evolution #machinelearning #neuralnetworks #biology
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137👍3727👀7🙈5👾2💔1💘1
⚡️ LoRA почти так же хороша, как полный fine-tuning, но в разы дешевле

Thinking Machines выпустили новое исследование, которое смотрит на LoRA под другим углом.

Главная идея исследования: LoRA может обучаться почти как полный fine-tuning, но при этом быть проще, дешевле и предсказуемее.

Они доказали это экспериментально: взяли одинаковую модель, прогнали обучение двумя способами: полным fine-tuning и LoRA - и сравнили кривые потерь (loss vs steps).

Процесс:
- Дали чёткий рецепт, а не случайные гипотезы.
- Показали, что процесс можно повторять с одинаковым результатом.
- Выяснили, что если адаптеру не хватает памяти, модель не ломается, а просто замедляется.

Результат показал, что при правильных настройках LoRA движется по той же траектории, что и FullFT. То есть качество модели и динамика обучения совпадают, пока у адаптера хватает параметров. Когда лимит достигается, у LoRA кривая не «обрывается», а просто идёт дальше медленнее.

Именно за счёт этого LoRA демонстрирует предсказуемое и воспроизводимое поведение, а не случайные провалы, которые часто происходят при подборе гиперпараметров «на глаз».

✔️ Правила от команды Thinking Machines
1. Ставить LoRA на все слои, а не только на attention.
2. Использовать ~10× больший learning rate, чем обычно.
3. Не раздувать batch size - иначе падает стабильность.

✔️ Что в итоге:
- Кривые обучения LoRA почти совпадают с full fine-tuning.
- Даже в упоре в лимит адаптера модель ведёт себя плавно.
- Вычислений требуется на треть меньше, чем у FullFT.

LoRA может стать инструментом для надёжного и дешёвого пост-трейнинга.

Для Thinking Machines это шаг к миссии: они уверены, что непредсказуемость моделей - это не фича, а баг, который можно исправить.

Если убрать случайность и сделать выходы стабильными - ИИ станет безопасным даже для критически важных процессов.

📌 Подробнее

@ai_machinelearning_big_data


#LoRA #FineTuning #AI #MachineLearning #DeepLearning #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
184👍41🔥197🤗2💘2🍓1