PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в
eager mode
сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования
policy_fn
, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.Для
torch.compile
стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile
по умолчанию. @ai_machinelearning_big_data
#AI #ML #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37👍22❤9
This media is not supported in your browser
VIEW IN TELEGRAM
Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️
Китайский зверь с 13B-параметрами.
Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.
Генерации выглядит хорошо!
▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V
@ai_machinelearning_big_data
#Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥14❤13
Machinelearning
🌟Начался новый сезон PROD – первой в России олимпиады по промышленной разработке для школьников. О начале второго сезона олимпиады объявил Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ. В рамках PROD школьники смогут…
🌟В Москве завершилась уникальная международная олимпиада по промышленной разработке PROD от Центрального университета, Т-Банка и НИУ ВШЭ
Участниками PROD стали более 4 000 школьников со всего мира, в том числе из Великобритании, Германии и Китая. Это единственная в мире олимпиада такого масштаба, где задания —- это реальные задачи бизнеса по автоматизации процессов и разработке приложений, которые помогают компаниям повышать эффективность и сокращать затраты.
В финале 235 школьников соревновались в разработке полноценных ИТ-продуктов таких, как платформа для проведения соревнований по анализу данных, сервис для обмена книгами, а также проект по созданию программ лояльности для партнеров Т-Банка.
Победителями стали 17 школьников из России и Беларуси. Они получили грант в размере 100% на обучение в Центральном университет, скидку до 90% на совместный бакалавриат Факультета компьютерных наук НИУ ВШЭ и Центрального университета и возможность пройти упрощенный отбор на стажировку в Т-Банк.
🟡Страница проекта
@ai_machinelearning_big_data
#AI #ML #Pytorch
Участниками PROD стали более 4 000 школьников со всего мира, в том числе из Великобритании, Германии и Китая. Это единственная в мире олимпиада такого масштаба, где задания —- это реальные задачи бизнеса по автоматизации процессов и разработке приложений, которые помогают компаниям повышать эффективность и сокращать затраты.
В финале 235 школьников соревновались в разработке полноценных ИТ-продуктов таких, как платформа для проведения соревнований по анализу данных, сервис для обмена книгами, а также проект по созданию программ лояльности для партнеров Т-Банка.
Победителями стали 17 школьников из России и Беларуси. Они получили грант в размере 100% на обучение в Центральном университет, скидку до 90% на совместный бакалавриат Факультета компьютерных наук НИУ ВШЭ и Центрального университета и возможность пройти упрощенный отбор на стажировку в Т-Банк.
🟡Страница проекта
@ai_machinelearning_big_data
#AI #ML #Pytorch
👍48🤣34❤12🗿4🥰2😁2👌1
Forwarded from Анализ данных (Data analysis)
🗼Многоязычный LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO
✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865
@data_analysis_ml
✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865
@data_analysis_ml
🔥38👍14❤11💯1😐1
⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.
Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.
Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).
Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai
Вот колаб, в котором всё, что вам нужно для запуска:
— Вставить API в строку
На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.
https://mistral.ai/fr/news/mistral-ocr
@ai_machinelearning_big_data
#mistral #ocr
Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.
Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).
Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai
Вот колаб, в котором всё, что вам нужно для запуска:
— Вставить API в строку
api_key
(его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path
на имя вашего документа.На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.
https://mistral.ai/fr/news/mistral-ocr
@ai_machinelearning_big_data
#mistral #ocr
1👍80❤26🔥12🤩5💯1
Nvidia анонсировала проведение ежегодной конференции GTC, которая пройдет в Сан-Хосе с 17 по 21 марта. Ожидается 25 тысяч участников очно и 300 тысяч онлайн. На конференции выступит главы Nvidia Дженсен Хуанг, его доклад будет посвящен AI и технологиям ускоренных вычислений.
В рамках GTC запланировано более 1000 сессий с участием 2000 спикеров и около 400 экспозиций, демонстрирующих применение AI в здравоохранении, робототехнике и автономном транспорте. Участники смогут посетить более 80 практических семинаров и впервые бесплатно сдать сертификационные экзамены.
На GTC в этом году впервые состоится Quantum Day, посвященный квантовым вычислениям.
nvidia.com
OpenAI намерена представить ряд дорогостоящих "агентских" продуктов, ориентированных на задачи сортировки и ранжирования лидов и разработку программного обеспечения. Так, стоимость "агента для высококвалифицированных специалистов" может составить 2 тыс. долларов в месяц, а "агента-разработчика" – 10 тыс. долларов.
Наиболее дорогостоящий вариант, по слухам, будет нацелен на поддержку исследований на уровне PhD. Хотя сроки запуска и круг потенциальных пользователей пока не определены, известно об инвестициях SoftBank в размере 3 миллиардов долларов в эти продукты OpenAI на текущий год.
theinformation.com
Microsoft полностью переосмыслили Copilot, сделав его нативным и интегрированным непосредственно в операционную систему. Теперь Copilot использует Windows-технологии XAML и WinUI. Тестировщики обновленного Copilot отмечают повышенную производительность: приложение работает практически без задержек и требует значительно меньше памяти – в среднем от 50 до 100 МБ RAM.
Предполагается, что благодаря глубокой интеграции с Windows 11, Copilot будет лучше понимать систему и предоставлять более персонализированные ответы. Новая версия Copilot под индексом 1.25023.101.0 уже доступна участникам Windows Insider.
pcworld.com
Майк Кригер, директор по продуктам Anthropic, прогнозирует, что работа инженеров-программистов существенно изменится в ближайшие 3 года. Уже сейчас разработчики тратят больше времени на проверку кода, сгенерированного ИИ, чем на его написание самостоятельно. Он считает, что по мере того, как ИИ будет все шире использоваться в программировании, разработчики начнут решать абстрактные задачи - разработка концепций, проектирование взаимодействия с пользователем и эффективное делегирование задач моделям.
Несмотря на автоматизацию отдельных процессов, Кригер не ожидает полного исчезновения профессии программиста, но подчеркивает, что для сохранения актуальности потребуется мультидисциплинарный подход, где знание того, что строить, становится столь же важным, как и знание как это реализовать.
businessinsider.com
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤13🔥11🕊1💯1
Разработанная Google в августе 2024 года ИИ-система AMIE теперь способна не только диагностировать, но и длительное время "вести" пациента. Инженеры Research-подразделения усовершенствовали AMIE, внедрив возможности, позволяющие ей учитывать динамику развития заболевания, реакцию на лечение и безопасно назначать лекарства, опираясь на клинические рекомендации.
В ходе эксперимента AMIE продемонстрировала результаты, не уступающие, а порой и превосходящие решения практикующих врачей в вопросах лечения и назначений. Система использует двухкомпонентную архитектуру, где один агент общается с пациентом, а другой анализирует данные и разрабатывает планы лечения на основе клинических руководств.
research.google
Разработку ИИ-агента Astra теперь ведет команда приложения Gemini, это означает переход от исследовательской стадии к коммерческому продукту. Инсайдеры осторожно намекают на релиз уже в марте этого года. Перенос проекта в целевое подразделение должен ускорить выпуск продукта, который был анонсирован в мае 2024 года.
Ожидается, что интеграция Astra даст возможность подписчикам Gemini Advanced на Android использовать видео и демонстрацию экрана для контекстных бесед. Часть исследовательской группы Astra останется в прежней структуре.
9to5google.com
Поисковик DuckDuckGo представил новые функции на базе ИИ, которые являются приватными, полезными и необязательными. Теперь пользователи могут бесплатно и анонимно пользоваться популярными чат-ботами по адресу Duck.ai. Среди доступных моделей – GPT-4o mini, Llama 3.3 и Claude 3 Haiku. Для удобства реализована функция «Recent Chats», которая сохраняет историю чатов локально на устройстве.
Кроме того, DuckDuckGo внедряет ИИ в поисковую выдачу, предлагая бесплатные ИИ-ответы на английском языке без необходимости регистрироваться. Пользователи могут настроить, как часто такие ответы будут появляться в результатах поиска, или отключить их вообще. Специальная кнопка «Assist» позволяет запросить ИИ-ответ, при этом запросы отправляются анонимно, что гарантирует защиту личной информации.
spreadprivacy.com
Tavus представила усовершенствованный интерфейс Conversational Video Interface (CVI), который помогает сделать взаимодействие между людьми и ИИ более человечным. CVI позволяет создавать AI-агентов, способных видеть, слушать, понимать и общаться в реальном времени.
В основе системы лежат три модели: Phoenix-3 – обеспечивает реалистичную анимацию лица, включая детали мимики, Raven-0 – анализирует визуальный контекст, намерения и эмоции, Sparrow-0 – управляет очередностью реплик для создания естественного диалога.
CVI может использоваться в различных сферах – от медицинской помощи до клиентского сервиса. Разработчики могут легко интегрировать CVI в свои приложения с помощью API.
tavus.io
Гигант социальных сетей активно наращивает усилия в сфере голосового ИИ. Согласно Financial Times, компания Марка Цукерберга планирует внедрить улучшенные голосовые функции в Llama 4. Разработчики убеждены, что будущее AI-агентов будет именно за разговорным взаимодействием, а не за текстовым.
Компания на протяжении последних 2 лет делает значительные инвестиции в ИИ, а Марк Цукерберг объявил о планах потратить до 65 млрд. долларов в 2025 году на укрепление AI-направлений. Создатели Lllama стремятся расширить возможности ИИ за пределы социальных сетей и рассматривают возможность пробного запуска премиум-подписок на своего AI-ассистента для выполнения агентских функций. Главный продуктовый директор, Крис Кокс, охарактеризовал грядущую Llama 4 как "омни-модель", которая генерирует речь вместо трансляции голоса в текст.
pymnts.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤18🔥6🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В репозитории представлены примеры агентов для:
- Super Mario Bros (1985) – классическая платформенная игра;
- Sokoban – головоломка с перемещением коробок;
- 2048 – логическая игра-головоломка;
- Tetris – культовая аркадная игра;
- Candy Crush – популярная головоломка с элементами стратегии и другие.
В каждом примере описаны этапы установки, настройки, запуска игры и агента, а также приведены рекомендации по оптимизации и настройке параметров, таких как политика агентов или количество рабочих потоков.
GamingAgent предоставляет подробную документацию по установке и настройке. С помощью простых команд можно легко развернуть агентов и тестить их.
Поддерживает API от ведущих И:
- OpenAI: gpt-4o, gpt-4o-mini, o1, o3-mini;
- Anthropic: claude-3-5, claude-3-7 и другие;
- Gemini: gemini-1.5, gemini-2.0 и варианты с режимом "thinking";
- Deepseek: chat и reasoner.
Такой широкий выбор позволяет разработчикам тестировать различные модели и выбирать наиболее подходящую под конкретную задачу.
Можно применять разные стратегии игровых агентов, используя встроенные режимы:
«long», «short», «alternate»
или можно реализовывать собственные алгоритмы. Это интересно для тех, кто работает в области планирования и принятия решений в реальном времени.
GamingAgent позволяет запускать агентов локально.
Алекс Альберт, руководитель отдела по связям с клиентами Antropic лайкнул это проект, Claude-3.7 отлично показывает себя в игре в Марио.
Установка:
git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent
▪ Github
@ai_machinelearning_big_data
#python #aiagents #gaminga
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤15🔥8🤩3🥰1
— В этом видео Manus одновременно регистрирует и активно управляет 50 аккаунтами в Твиттере.
— Агент провел всесторонний анализ акций Tesla и предложила свой прогноз на будущее.
— Manus вычислил оптимальную орбиту для космического корабля, направляющегося к Марсу, с учётом текущего расположения планет.
Подать заявку на доступ можно здесь. А здесь вы найдете сравнение ManusAI и OpenAI DeepResearch.
Manus
• Всё работает в облаке.
• 20 детально проработанных глав: от архитектуры нейросетей и NLP до основ глубокого обучения.
• Теория подкреплена практическими задачами
• Большое количество понятных примеров
Colab
HF
Github
@ai_machinelearning_big_data
#news #ai #ml #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53❤16🥰13🔥7
Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.
Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.
Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.
Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).
На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.
Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.
Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.
@ai_machinelearning_big_data
#AI #ML #LLM #RoCM #AMD #Instella
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥20❤11🙏3