Forwarded from Machinelearning
Помимо своей большой языковой модели T-lite, Т-Банк открыл доступ к библиотеке Turbo Alignment, которая позволяет даже небольшим командам без значительных ресурсов и глубокой экспертизы в LLM создавать LLM-based продукты.
@ai_machinelearning_big_data
#LLM #news #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 Конспекты лекций по машинному обучению в Калифорнийском университете в Беркли
people.eecs.berkeley.edu/~jrs/papers/machlearn.pdf
@machinelearning_interview
people.eecs.berkeley.edu/~jrs/papers/machlearn.pdf
@machinelearning_interview
Выпуск PyTorch® 2.5 представляет новый бэкэнд CuDNN для SDPA, обеспечивающий ускорение до 75% на GPU NVIDIA H100 и новее. Оно активировано по умолчанию.
Сокращено время холодного запуска torch.compile благодаря региональной компиляции, которая позволяет собирать nn.Module без перекомпиляции.
Бэкэнд TorchInductor CPP получил поддержку FP16, обертку CPP, режим AOT-Inductor и режим максимальной автонастройки.
В режиме максимальной автонастройки для GEMM-операций используется шаблон C++ в качестве альтернативы ATen с библиотеками oneDNN и MKL.
Поддержка Intel GPU расширена и теперь включает Intel® Data Center GPU Max Series и Intel® Client GPU.
Релиз включает 4095 коммитов от 504 участников.
pytorch.org
Обновленная политика включает Стандарты уровня безопасности ИИ - набор мер безопасности, строгость которых возрастает по мере роста возможностей модели. Пороговые значения возможностей - это конкретные способности ИИ, достижение которых требует усиленных мер безопасности.
В новой версии определены два ключевых порога: автономные исследования в области ИИ и разработка оружия массового поражения. Для эффективного внедрения политики Anthropic разработала оценку возможностей, оценку мер безопасности, процессы документирования и принятия решений и меры для внутреннего управления и получения внешних заключений.
anthropic.com
Perplexity запускает поиск по внутренней базе знаний и рабочие пространства.
Perplexity представляет две новые функции: поиск по внутренней базе знаний, который позволяет пользователям Pro и Enterprise Pro искать как в Интернет-контенте, так и в своих собственных внутренних базах знаний, и Perplexity Spaces - хабы для совместной работы на базе ИИ, которые можно настраивать под конкретные задачи.
Perplexity Spaces позволяют приглашать коллег, подключать внутренние файлы и настраивать ИИ-помощника. Функция поиска по внутренней базе знаний уже доступна клиентам Enterprise Pro.
perplexity.ai
OpenAI представила предварительную версию приложения ChatGPT для Windows, предназначенного для пользователей ChatGPT Plus, Team, Enterprise и Edu.
Это ранняя версия "полноценного приложения", которое выйдет позже в этом году. Пользователи могут загружать файлы и фотографии, резюмировать документы и создавать изображения с помощью DALL-E 3. Есть ограничения: отсутствие поддержки голоса, включая расширенный голосовой режим, и некоторые интеграции с GPT Store.
Приложение предоставляет доступ ко всем моделям OpenAI, включая o1-preview.
techcrunch.com
Boston Dynamics и Toyota Research Institute (TRI) объединят усилия, чтобы ускорить разработку роботов-гуманоидов общего назначения. Исследовательское партнерство будет использовать большие поведенческие модели TRI и робота Atlas от Boston Dynamics.
TRI - мировой лидер в быстром развитии больших поведенческих моделей (LBM) для робототехники. Партнерство, базирующееся в Бостоне, будет совместно возглавляться Скоттом Кейндерсмой, старшим директором по исследованиям в области робототехники в Boston Dynamics, и Рассом Тедрейком, вице-президентом по исследованиям в области робототехники в TRI.
pressroom.toyota.com
AMD и NVIDIA, два главных производителя чипов, объединили свои усилия в сфере ИИ. Несмотря на конкуренцию, они пришли к совместному заключению, что их технологии дополняют друг друга. Процессоры AMD EPYC отлично работают в паре с NVIDIA GPU, увеличивая производительность при работе с большими моделями машинного обучения.
В результате сотрудничества, процессоры AMD EPYC будут интегрированы в системы NVIDIA HGX и MGX, чтобы оптимизировать производительность ИИ и ЦОДов.
analyticsindiamag.com
#news #ai #ml
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Курс поможет навыки работы с предельной вероятностью и объясняет теорему Байеса, которая рассматривает вероятность возникновения событий на основе возникновения других событий
#курс #datascience
freecourses
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.
Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.
Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.
В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.
Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :
⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.
Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.
@ai_machinelearning_big_data
#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Новая модель преобразования текста в видео с помощью ИИ от Rhymes
Allegro — небольшая и эффективная модель преобразования текста в видео с открытым исходным кодом, которая преобразует ваш текст в 6-секундные видеоролики со скоростью 15 кадров в секунду и разрешением 720p.
https://huggingface.co/rhymes-ai/Allegro
@machinelearning_interview
Allegro — небольшая и эффективная модель преобразования текста в видео с открытым исходным кодом, которая преобразует ваш текст в 6-секундные видеоролики со скоростью 15 кадров в секунду и разрешением 720p.
https://huggingface.co/rhymes-ai/Allegro
@machinelearning_interview
Forwarded from Machinelearning
Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.
В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.
Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.
Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.
@ai_machinelearning_big_data
#AI #ML #LLM #Guide #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Как ускорить обучение нейросетей и обработку данных?
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
This media is not supported in your browser
VIEW IN TELEGRAM
На втором этапе повышается согласованность между этими изображениями.
Этот подход позволяет получать качественную 3D-реконструкцию сцены без дополнительной тренировки моделей.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.
Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.
Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды
pip install --upgrade keras-hub.
Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.
Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через
keras.losses.<loss_function>.
▪️Блог: developers.googleblog.com
▪️Ознакомьтесь с документацией: https://keras.io/keras_hub/
▪️Ознакомьтесь с руководствами по началу работы с KerasHub: https://keras.io/guides/keras_hub/
▪️Поэкспериментируйте с предварительно подготовленными моделями: https://keras.io/api/keras_hub/models/
▪️Изучите исходный код: https://github.com/keras-team/keras-hub/
▪️Ознакомьтесь с Keras на Kaggle: https://www.kaggle.com/organizations/keras
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Яндекс представил четвертое поколение больших языковых моделей YandexGPT
Новая линейка генеративных моделей Яндекса лучше отвечает на вопросы, решает более сложные запросы и умеет рассуждать пошагово. Так, качество ответов YandexGPT 4 Pro улучшилось в 70% случаев по сравнению с предыдущей версией. В статье на Хабре команда Яндекса рассказала, как обучала YandexGPT 4, и показала результаты замеров качества и сравнения с другими моделями.
◾️ Хабр
@machinelearning_interview
Новая линейка генеративных моделей Яндекса лучше отвечает на вопросы, решает более сложные запросы и умеет рассуждать пошагово. Так, качество ответов YandexGPT 4 Pro улучшилось в 70% случаев по сравнению с предыдущей версией. В статье на Хабре команда Яндекса рассказала, как обучала YandexGPT 4, и показала результаты замеров качества и сравнения с другими моделями.
◾️ Хабр
@machinelearning_interview
Forwarded from Data Science
Forwarded from Data Secrets
Улучшенная версия BPR
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов😱
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Репозиторий Github облачного хостинг-провайдера Lambda Labs c исчерпывающим руководством по лучшим практикам распределенного обучения, диагностике часто возникающих ошибок, эффективном использовании доступных ресурсов и приемам логгирования в stdout/stderr и wandb.
Вопросы, на которые отвечает это руководство:
Руководство состоит из последовательных глав, каждая из которых содержит
readme
и скрипт train_llm.py
. В
readme
содержатся описания глав, а каждый из обучающих скриптов нацелен на обучение каузальной языковой модели.# Clone repo
git clone https://github.com/LambdaLabsML/distributed-training-guide.git
# Create venv
cd distributed-training-guide
python3 -m venv venv
source venv/bin/activate
python -m pip install -U pip
pip install -U setuptools wheel
pip install -r requirements.txt
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
Google DeepMind представила SynthID-Text, систему водяных знаков для маркировки текста, сгенерированного ИИ, которая позволяет определить его происхождение без ущерба для качества и скорости генерации текста.
Система работает путем незаметного для человека изменения некоторых слов в выводе чат-бота, создавая "статистическую подпись", которую может обнаружить детектор SynthID. SynthID-Text уже интегрирована в чат-бот Google Gemini и доступна разработчикам и компаниям в открытом доступе.
Система не является панацеей: значительное редактирование текста или его перефразирование другим чат-ботом может скрыть водяной знак.
deepmind.google
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
PANGEA - это модель с 7.94 млрд. параметров на архитектуре LLaVA-Next и с Qwen2-7B-Instruct в качестве LLM-основы, которая была обученная на инструктивном датасете PANGEAINS.
PANGEA предназначена для "преодоления" культурных и языковых барьеров в задачах визуального понимания в задачах мультимодального чата, создания аннотаций к изображениям, понимания контекста культурных особенностей, обработке многоязычных VQA и рассуждений на разные темы.
Инструктивный датасет PANGEAINS состоит из 6 млн. мультимодальных инструкций на 39 языках. Перевод инструкций с английского языка на другие выполнялся с помощью Gemini 1.5 Pro.
Оценка PANGEA проводилась с использованием набора тестов PANGEABENCH(14 наборов данных на 47 языках) .
PANGEA продемонстрировала значительные улучшения в кросс-лингвистическом и кросс-культурном понимании.
Репозиторий PANGEA на Github содержит подробные инструкции и скрипты по установке, тонкой настройке, оценке результатов обучения и примеры разметки данных для файнтюна.
@machinelearning_interview
#AI #ML #MMLM #Pangea
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM