Machinelearning – Telegram

Machinelearning

@ai_machinelearning_big_data

226K subscribers

3.88K photos

661 videos

17 files

4.5K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

226K subscribers

Machinelearning

📌

PyTorch: новые инструменты для для экономии памяти при обучении моделей.

PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.

Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.

Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.

Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.

🔜

Читать подробную статью в блоге Pytorch

@ai_machinelearning_big_data

#AI #ML #Pytorch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥37👍22❤9

25.4K views09:05

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🚀🚀🚀 HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео!

Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️

Китайский зверь с 13B-параметрами.

Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.

Генерации выглядит хорошо!

▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V

@ai_machinelearning_big_data

#Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30🔥14❤13

21.2K views10:49

Machinelearning

Machinelearning

🌟Начался новый сезон PROD – первой в России олимпиады по промышленной разработке для школьников. О начале второго сезона олимпиады объявил Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ. В рамках PROD школьники смогут…

🌟В Москве завершилась уникальная международная олимпиада по промышленной разработке PROD от Центрального университета, Т-Банка и НИУ ВШЭ

Участниками PROD стали более 4 000 школьников со всего мира, в том числе из Великобритании, Германии и Китая. Это единственная в мире олимпиада такого масштаба, где задания —- это реальные задачи бизнеса по автоматизации процессов и разработке приложений, которые помогают компаниям повышать эффективность и сокращать затраты.

В финале 235 школьников соревновались в разработке полноценных ИТ-продуктов таких, как платформа для проведения соревнований по анализу данных, сервис для обмена книгами, а также проект по созданию программ лояльности для партнеров Т-Банка.

Победителями стали 17 школьников из России и Беларуси. Они получили грант в размере 100% на обучение в Центральном университет, скидку до 90% на совместный бакалавриат Факультета компьютерных наук НИУ ВШЭ и Центрального университета и возможность пройти упрощенный отбор на стажировку в Т-Банк.

🟡Страница проекта

@ai_machinelearning_big_data

#AI #ML #Pytorch

👍48🤣34❤12🗿4🥰2😁2👌1

15.1K views13:25

Machinelearning

Forwarded from Анализ данных (Data analysis)

🗼Многоязычный LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO

✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.

▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865

@data_analysis_ml

🔥38👍14❤11💯1😐1

13.5K views14:56

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.

Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.

Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).

Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai

Вот колаб, в котором всё, что вам нужно для запуска:

— Вставить API в строку api_key (его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path на имя вашего документа.

На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.

https://mistral.ai/fr/news/mistral-ocr

@ai_machinelearning_big_data

#mistral #ocr

1👍80❤26🔥12🤩5💯1

30.3K views01:52

Machinelearning

✔️

Nvidia соберет тысячи специалистов на конференции по AI-технологиям GTC 2025.

Nvidia анонсировала проведение ежегодной конференции GTC, которая пройдет в Сан-Хосе с 17 по 21 марта. Ожидается 25 тысяч участников очно и 300 тысяч онлайн. На конференции выступит главы Nvidia Дженсен Хуанг, его доклад будет посвящен AI и технологиям ускоренных вычислений.

В рамках GTC запланировано более 1000 сессий с участием 2000 спикеров и около 400 экспозиций, демонстрирующих применение AI в здравоохранении, робототехнике и автономном транспорте. Участники смогут посетить более 80 практических семинаров и впервые бесплатно сдать сертификационные экзамены.

На GTC в этом году впервые состоится Quantum Day, посвященный квантовым вычислениям.
nvidia.com

✔️

OpenAI планирует тарифы стоимостью до 20 тысяч долларов в месяц за специализированные ИИ-агенты.

OpenAI намерена представить ряд дорогостоящих "агентских" продуктов, ориентированных на задачи сортировки и ранжирования лидов и разработку программного обеспечения. Так, стоимость "агента для высококвалифицированных специалистов" может составить 2 тыс. долларов в месяц, а "агента-разработчика" – 10 тыс. долларов.

Наиболее дорогостоящий вариант, по слухам, будет нацелен на поддержку исследований на уровне PhD. Хотя сроки запуска и круг потенциальных пользователей пока не определены, известно об инвестициях SoftBank в размере 3 миллиардов долларов в эти продукты OpenAI на текущий год.
theinformation.com

✔️

Microsoft переработала приложение Copilot для Windows 11.

Microsoft полностью переосмыслили Copilot, сделав его нативным и интегрированным непосредственно в операционную систему. Теперь Copilot использует Windows-технологии XAML и WinUI. Тестировщики обновленного Copilot отмечают повышенную производительность: приложение работает практически без задержек и требует значительно меньше памяти – в среднем от 50 до 100 МБ RAM.

Предполагается, что благодаря глубокой интеграции с Windows 11, Copilot будет лучше понимать систему и предоставлять более персонализированные ответы. Новая версия Copilot под индексом 1.25023.101.0 уже доступна участникам Windows Insider.
pcworld.com

✔️

Директор по продуктам Anthropic: "в ближайшие 3 года программисты будут отвечать только за проверку сгенерированного кода".

Майк Кригер, директор по продуктам Anthropic, прогнозирует, что работа инженеров-программистов существенно изменится в ближайшие 3 года. Уже сейчас разработчики тратят больше времени на проверку кода, сгенерированного ИИ, чем на его написание самостоятельно. Он считает, что по мере того, как ИИ будет все шире использоваться в программировании, разработчики начнут решать абстрактные задачи - разработка концепций, проектирование взаимодействия с пользователем и эффективное делегирование задач моделям.

Несмотря на автоматизацию отдельных процессов, Кригер не ожидает полного исчезновения профессии программиста, но подчеркивает, что для сохранения актуальности потребуется мультидисциплинарный подход, где знание того, что строить, становится столь же важным, как и знание как это реализовать.
businessinsider.com

✔️

VLM-run Hub – платформа для централизованного управления, развертывания и мониторинга VLM-пайплайнов. Она служит в качестве «хаба», куда можно интегрировать различные модели, алгоритмы и компоненты, необходимые для создания и эксплуатации систем, объединяющих обработку изображений и текста. Благодаря интуитивно понятному интерфейсу и расширяемой архитектуре, инструмент упрощает сложные процессы и позволяет быстро адаптировать решения под специфические задачи.
Github

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤13🔥11🕊1💯1

14.7K views07:15

Machinelearning

✔️

Google Research разрабатывает систему AMIE для долгосрочного медицинского сопровождения пациентов.

Разработанная Google в августе 2024 года ИИ-система AMIE теперь способна не только диагностировать, но и длительное время "вести" пациента. Инженеры Research-подразделения усовершенствовали AMIE, внедрив возможности, позволяющие ей учитывать динамику развития заболевания, реакцию на лечение и безопасно назначать лекарства, опираясь на клинические рекомендации.

В ходе эксперимента AMIE продемонстрировала результаты, не уступающие, а порой и превосходящие решения практикующих врачей в вопросах лечения и назначений. Система использует двухкомпонентную архитектуру, где один агент общается с пациентом, а другой анализирует данные и разрабатывает планы лечения на основе клинических руководств.
research.google

✔️

Проект Google Astra переходит к команде Gemini AI.

Разработку ИИ-агента Astra теперь ведет команда приложения Gemini, это означает переход от исследовательской стадии к коммерческому продукту. Инсайдеры осторожно намекают на релиз уже в марте этого года. Перенос проекта в целевое подразделение должен ускорить выпуск продукта, который был анонсирован в мае 2024 года.

Ожидается, что интеграция Astra даст возможность подписчикам Gemini Advanced на Android использовать видео и демонстрацию экрана для контекстных бесед. Часть исследовательской группы Astra останется в прежней структуре.
9to5google.com

✔️

DuckDuckGo представил новые ИИ-функции.

Поисковик DuckDuckGo представил новые функции на базе ИИ, которые являются приватными, полезными и необязательными. Теперь пользователи могут бесплатно и анонимно пользоваться популярными чат-ботами по адресу Duck.ai. Среди доступных моделей – GPT-4o mini, Llama 3.3 и Claude 3 Haiku. Для удобства реализована функция «Recent Chats», которая сохраняет историю чатов локально на устройстве.

Кроме того, DuckDuckGo внедряет ИИ в поисковую выдачу, предлагая бесплатные ИИ-ответы на английском языке без необходимости регистрироваться. Пользователи могут настроить, как часто такие ответы будут появляться в результатах поиска, или отключить их вообще. Специальная кнопка «Assist» позволяет запросить ИИ-ответ, при этом запросы отправляются анонимно, что гарантирует защиту личной информации.
spreadprivacy.com

✔️

Tavus выводит ИИ-видеокоммуникацию на новый уровень.

Tavus представила усовершенствованный интерфейс Conversational Video Interface (CVI), который помогает сделать взаимодействие между людьми и ИИ более человечным. CVI позволяет создавать AI-агентов, способных видеть, слушать, понимать и общаться в реальном времени.

В основе системы лежат три модели: Phoenix-3 – обеспечивает реалистичную анимацию лица, включая детали мимики, Raven-0 – анализирует визуальный контекст, намерения и эмоции, Sparrow-0 – управляет очередностью реплик для создания естественного диалога.

CVI может использоваться в различных сферах – от медицинской помощи до клиентского сервиса. Разработчики могут легко интегрировать CVI в свои приложения с помощью API.
tavus.io

✔️

Llama 4 будет поддерживать голосовые функции.

Гигант социальных сетей активно наращивает усилия в сфере голосового ИИ. Согласно Financial Times, компания Марка Цукерберга планирует внедрить улучшенные голосовые функции в Llama 4. Разработчики убеждены, что будущее AI-агентов будет именно за разговорным взаимодействием, а не за текстовым.

Компания на протяжении последних 2 лет делает значительные инвестиции в ИИ, а Марк Цукерберг объявил о планах потратить до 65 млрд. долларов в 2025 году на укрепление AI-направлений. Создатели Lllama стремятся расширить возможности ИИ за пределы социальных сетей и рассматривают возможность пробного запуска премиум-подписок на своего AI-ассистента для выполнения агентских функций. Главный продуктовый директор, Крис Кокс, охарактеризовал грядущую Llama 4 как "омни-модель", которая генерирует речь вместо трансляции голоса в текст.
pymnts.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50❤18🔥6🥰2

19.8K views06:15

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🏜

GamingAgent – это простое решение для развертывания локальных игровых агентов (CUA – Computer Use Agents).

В репозитории представлены примеры агентов для:

- Super Mario Bros (1985) – классическая платформенная игра;
- Sokoban – головоломка с перемещением коробок;
- 2048 – логическая игра-головоломка;
- Tetris – культовая аркадная игра;
- Candy Crush – популярная головоломка с элементами стратегии и другие.

В каждом примере описаны этапы установки, настройки, запуска игры и агента, а также приведены рекомендации по оптимизации и настройке параметров, таких как политика агентов или количество рабочих потоков.

GamingAgent предоставляет подробную документацию по установке и настройке. С помощью простых команд можно легко развернуть агентов и тестить их.

Поддерживает API от ведущих И:

- OpenAI: gpt-4o, gpt-4o-mini, o1, o3-mini;
- Anthropic: claude-3-5, claude-3-7 и другие;
- Gemini: gemini-1.5, gemini-2.0 и варианты с режимом "thinking";
- Deepseek: chat и reasoner.
Такой широкий выбор позволяет разработчикам тестировать различные модели и выбирать наиболее подходящую под конкретную задачу.

Можно применять разные стратегии игровых агентов, используя встроенные режимы: «long», «short», «alternate» или можно реализовывать собственные алгоритмы.

Это интересно для тех, кто работает в области планирования и принятия решений в реальном времени.

GamingAgent позволяет запускать агентов локально.

Алекс Альберт, руководитель отдела по связям с клиентами Antropic лайкнул это проект, Claude-3.7 отлично показывает себя в игре в Марио.

Установка:

git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent

▪ Github

@ai_machinelearning_big_data

#python #aiagents #gaminga

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37❤15🔥8🤩3🥰1

17.6K views12:04

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Стартап Manus представил универсального ИИ-агента, выглядит очень впечатляюще. Он объединяет возможности OpenAI Operator и глубокую аналитику, но работает ещё эффективнее. Этот агент не только умеет управлять компьютером, но и собирает информацию для проведения серьёзных научных исследований.

— В этом видео Manus одновременно регистрирует и активно управляет 50 аккаунтами в Твиттере.
— Агент провел всесторонний анализ акций Tesla и предложила свой прогноз на будущее.
— Manus вычислил оптимальную орбиту для космического корабля, направляющегося к Марсу, с учётом текущего расположения планет.

Подать заявку на доступ можно здесь. А здесь вы найдете сравнение ManusAI и OpenAI DeepResearch.
Manus

✔️ Очень годный сборник учебных материалов, обучающих созданию нейросетей и обучению нейросетей её с нуля.

• Всё работает в облаке.
• 20 детально проработанных глав: от архитектуры нейросетей и NLP до основ глубокого обучения.
• Теория подкреплена практическими задачами
• Большое количество понятных примеров
Colab

✔️ Nomic Embed v2 — это новая SOTA для создания текстовых эмбеддингов, использующая архитектуру Mixture-of-Experts (MoE). Поддерживает около 100 языков и была обучена на более чем 1,6 миллиарда пар данных. Модель полностью открыта.
HF

✔️ Smart-turn — это открытая модель для определения смены речевых реплик (turn detection) в системах голосового взаимодействия. Она предназначена для более точного определения момента, когда голосовой агент должен начать свою реакцию на речь пользователя. Очень полезный инструмент для разработчиков голосовых агентов, стремящихся улучшить естественность и эффективность взаимодействия с пользователями.
Github

@ai_machinelearning_big_data

#news #ai #ml #aiagents

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍53❤16🥰13🔥7

18.2K views04:45

Machinelearning

🌟 AMD Instella: открытая языковая модель, обученная на ROCm и оборудовании AMD.

Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.

Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.

Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.

Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).

На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.

Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.

Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.

▶️ Состав релиза:

🟢

Instella-3B-Stage1 - претрейн-чекпоинт после первого этапа обучения;

🟢

Instella-3B - чекпоинт после второго этапа;

🟢

Instella-3B-SFT - версия модели после SFT;

🟢

Instella-3B-Instruct - финальная версия после DPO;

🟠

Instella-GSM8K-synthetic - датасет, использованный на 2 этапе обучения;

🟠

Код для трейна и инференса

📌 Лицензирование: ReasearchRAIL License.

🟡

🟡

Коллекция на HF

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RoCM #AMD #Instella

Please open Telegram to view this post

VIEW IN TELEGRAM

👍61🔥20❤11🙏3

18.7K views08:40