Алгоритм YaFSDP позволяет существенно ускорить процесс обучения больших языковых моделей. Руководитель группы претрейна YandexGPT рассказал, как команда работала над созданием библиотеки, были ли референсы и сложности в процессе.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Держите несколько практических заданий по ML и их решение на R.
Вот некоторые из заданий:
— кластеризация и классификация
— работа с текстом
— определение выбросов в датасете
— проведение статистических тестов
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Xorbits позволяет, к примеру, легко использовать данные для обучения генеративных моделей а также разворачивать обученные модели в своей инфраструктуре.
Xorbits может использовать несколько ядер/GPU, может работать на 1 машине или масштабироваться до тысяч машин для поддержки обработки терабайтов данных.
Xorbits предоставляет набор полезных библиотек для анализа данных и ML.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На Хабр вышла статья-разбор новой технологии Яндекс Погоды, работающей на основе нейросетей. OmniCast улучшает локальный прогноз за счет новых источников данных — любительских метеостанций. Благодаря этому сервис стал в 36 раз чаще получать данные о температуре и обновлять прогноз каждые пять минут.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Как выбрать Фреймворк для инференса.
Полезный чек-лист вопросов для выбора мл фреймворка для настройки моделей.
📌 Github
@machinelearning_interview
Полезный чек-лист вопросов для выбора мл фреймворка для настройки моделей.
📌 Github
@machinelearning_interview
Помимо подробной теории по ML здесь приводятся лабораторные работы с решениями
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ LinkedIn_AIHawk — это утилита на основе ИИ, созданная пользователем Reddit, для быстрого поиска работы.
Программа адаптирует ваше резюме под описания вакансий и автоматически рассылает их.
Результаты впечатляют: за сутки автор отправил 1000 резюме, что привело к 50 приглашениям на собеседования. Бот не только корректирует резюме, но и самостоятельно отвечает на вопросы HR-менеджеров от вашего имени.
Установка:
▪ Github
@machinelearning_interview
Программа адаптирует ваше резюме под описания вакансий и автоматически рассылает их.
Результаты впечатляют: за сутки автор отправил 1000 резюме, что привело к 50 приглашениям на собеседования. Бот не только корректирует резюме, но и самостоятельно отвечает на вопросы HR-менеджеров от вашего имени.
Установка:
bash
$ git clone https://github.com/feder-cr/LinkedIn_AIHawk_automatic_job_application
$ cd LinkedIn_AIHawk_automatic_job_application
$ pip install -r requirements.txt
▪ Github
@machinelearning_interview
📶 Главные темы линейной алгебры для специалиста по машинному обучению
📌 Крутейшие Стэнфордские материалы по линейной алгебре
@machinelearning_interview
📌 Крутейшие Стэнфордские материалы по линейной алгебре
@machinelearning_interview
Доклады экспертов, заслуживающие отдельного внимания:
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Екатерина Глазкова, тимлид команды алайнмента VLM службы компьютерного зрения — «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
— Степан Комков, старший разработчик службы синтеза речи — «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🐈⬛ A Comprehensive Benchmark of Machine and Deep Learning
Across Diverse Tabular Datasets
В новом обзоре алгоритмов машинного обучения были проанализированы 20 моделей на 111 датасетах, охватывающих задачи классификации и регрессии.
CatBoost, относящийся к группе моделей Tree-based Ensemble (TE), занял первое место, продемонстрировав лучшие результаты на 19 из 111 наборов данных. В то же время XGBoost оказался на 10-й позиции.
🔗 Подробности
Across Diverse Tabular Datasets
В новом обзоре алгоритмов машинного обучения были проанализированы 20 моделей на 111 датасетах, охватывающих задачи классификации и регрессии.
CatBoost, относящийся к группе моделей Tree-based Ensemble (TE), занял первое место, продемонстрировав лучшие результаты на 19 из 111 наборов данных. В то же время XGBoost оказался на 10-й позиции.
🔗 Подробности