Machine learning Interview
24.4K subscribers
1.05K photos
70 videos
12 files
704 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 VistaDream — фреймворк, который восстанавливает 3D-сцену по одному изображению с помощью методов диффузии.

💡Работает в 2 этапа: на первом этапе создается глобальная 3D-структура объекта , затем с помощью RGB-D inpainting генерируются изображения с разных ракурсов.

На втором этапе повышается согласованность между этими изображениями.

Этот подход позволяет получать качественную 3D-реконструкцию сцены без дополнительной тренировки моделей.

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Keras Hub: универсальная библиотека для предобученных моделей.

Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.

Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.

Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub.

Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.

Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>.

▪️Блог: developers.googleblog.com
▪️Ознакомьтесь с документацией: https://keras.io/keras_hub/
▪️Ознакомьтесь с руководствами по началу работы с KerasHub: https://keras.io/guides/keras_hub/
▪️Поэкспериментируйте с предварительно подготовленными моделями: https://keras.io/api/keras_hub/models/
▪️Изучите исходный код: https://github.com/keras-team/keras-hub/
▪️Ознакомьтесь с Keras на Kaggle: https://www.kaggle.com/organizations/keras

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Яндекс представил четвертое поколение больших языковых моделей YandexGPT

Новая линейка генеративных моделей Яндекса лучше отвечает на вопросы, решает более сложные запросы и умеет рассуждать пошагово. Так, качество ответов YandexGPT 4 Pro улучшилось в 70% случаев по сравнению с предыдущей версией. В статье на Хабре команда Яндекса рассказала, как обучала YandexGPT 4, и показала результаты замеров качества и сравнения с другими моделями.

◾️ Хабр

@machinelearning_interview
Forwarded from Data Science
UC Berkeley's "Machine Learning" lecture notes

📓 Book

@datascienceiot
Forwarded from Data Secrets
Улучшенная версия BPR

В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.

Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.

Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов 😱

В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!

Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.

Исходный код и дополнительные материалы можно найти на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌 Гайд по распределенному обучению.

Репозиторий Github облачного хостинг-провайдера Lambda Labs c исчерпывающим руководством по лучшим практикам распределенного обучения, диагностике часто возникающих ошибок, эффективном использовании доступных ресурсов и приемам логгирования в stdout/stderr и wandb.

Вопросы, на которые отвечает это руководство:

🟢Как обновить скрипт обучения/файнтюна на одном GPU для работы на нескольких GPU или нескольких нодах?

🟢Как диагностировать зависания/ошибки, возникающие во время обучения?

🟢Моя модель слишком велика для одного GPU - как мне обучить/настроить ее на кластере?

🟢Как запланировать и запустить обучение на кластере?

🟢Как масштабировать гиперпараметры при увеличении числа воркеров?

Руководство состоит из последовательных глав, каждая из которых содержит readme и скрипт train_llm.py.

В readme содержатся описания глав, а каждый из обучающих скриптов нацелен на обучение каузальной языковой модели.

▶️ Структура:

🟠Один GPU;
🟠Несколько GPU на одной ноде;
🟠Несколько GPU на нескольких нодах;
🟠Запуск заданий;
🟠Шардинг между GPU (deepspeed);
🟠Шардинг между GPU (FSDP);
🟠Обучение 405B модели;
🟠Диагностика ошибок;
🟠Дополнительные темы (детерминизм, эффективность batch-size и LR, Gradient accumulation и др.).

▶️Локальное использование репозитория:

# Clone repo
git clone https://github.com/LambdaLabsML/distributed-training-guide.git

# Create venv
cd distributed-training-guide
python3 -m venv venv
source venv/bin/activate
python -m pip install -U pip
pip install -U setuptools wheel
pip install -r requirements.txt


📌Лицензирование : MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Github #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Google DeepMind разработала систему водяных знаков SynthID для идентификации текста, созданного ИИ.

Google DeepMind представила SynthID-Text, систему водяных знаков для маркировки текста, сгенерированного ИИ, которая позволяет определить его происхождение без ущерба для качества и скорости генерации текста.

Система работает путем незаметного для человека изменения некоторых слов в выводе чат-бота, создавая "статистическую подпись", которую может обнаружить детектор SynthID. SynthID-Text уже интегрирована в чат-бот Google Gemini и доступна разработчикам и компаниям в открытом доступе.

Система не является панацеей: значительное редактирование текста или его перефразирование другим чат-ботом может скрыть водяной знак.
deepmind.google

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Pangea: открытая мультиязычная МLLM для 39 языков и инструктивный датасет .

PANGEA - это модель с 7.94 млрд. параметров на архитектуре LLaVA-Next и с Qwen2-7B-Instruct в качестве LLM-основы, которая была обученная на инструктивном датасете PANGEAINS.

PANGEA предназначена для "преодоления" культурных и языковых барьеров в задачах визуального понимания в задачах мультимодального чата, создания аннотаций к изображениям, понимания контекста культурных особенностей, обработке многоязычных VQA и рассуждений на разные темы.

Инструктивный датасет PANGEAINS состоит из 6 млн. мультимодальных инструкций на 39 языках. Перевод инструкций с английского языка на другие выполнялся с помощью Gemini 1.5 Pro.

Оценка PANGEA проводилась с использованием набора тестов PANGEABENCH(14 наборов данных на 47 языках) .

PANGEA продемонстрировала значительные улучшения в кросс-лингвистическом и кросс-культурном понимании.

Репозиторий PANGEA на Github содержит подробные инструкции и скрипты по установке, тонкой настройке, оценке результатов обучения и примеры разметки данных для файнтюна.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🟡Demo
🖥Github


@machinelearning_interview

#AI #ML #MMLM #Pangea
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Bee Agent Framework — фреймворк для создания масштабируемых агентных приложений с использованием моделей глубокого обучения. Он поддерживает работу с моделями, такими как Llama, и позволяет создавать агентов, оснащенных инструментами для поиска и анализа данных, интеграции с API и другими функциями

🌟 Фреймворк предлагает возможности для логирования, трассировки, управления памятью и безопасного выполнения кода, а также включает готовый UI для взаимодействия пользователей с агентом

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🧬 GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.

GEMCODE - это конвейер, разработанный специалистами Ивановского государственного химико-технологического университета, для ускоренной разработки действующих веществ лекарственных средств, позволяющий быстро генерировать уникальные и валидные химические структуры коформеров с высокой вероятностью образования сокристаллов и целевыми профилями таблетируемости.

GEMCODE основан на гибридизации генеративных моделей и эволюционной оптимизации, что позволяет проводить более широкий поиск в целевом химическом пространстве.

Для обучения моделей использовался набор данных, состоящий из 1,75 млн. химических структур из базы данных ChEMBL, и специализированный набор данных, содержащий 4227 уникальных структур коформеров.

Для прогнозирования механических свойств сгенерированных молекул была использована библиотека GOLEM и разработанные модели ML.

GEMCODE состоит из четырех основных компонентов:

1) Генерация кандидатов коформеров: Обученные генеративные модели (GAN, T-VAE, T-CVAE) создают SMILES-представления структур, подобных коформерам.
2) Прогнозирование механических свойств: Сгенерированные молекулы и терапевтические соединения подаются в обученные ML-модели, которые предсказывают механические свойства потенциальных сокристаллов.
3) Эволюционная оптимизация: Эволюционный алгоритм в сочетании с ML- моделями улучшает профили таблетируемости сгенерированных коформеров.
4) Ранжирование по вероятности образования сокристаллов: GNN оценивает и ранжирует пары лекарств и коформеров в соответствии с вероятностью образования сокристаллов.
Для оценки вероятности образования сокристаллов применялась предварительно обученная GNN CCGNet.

Эксперименты показали, что:

T-CVAE генерирует наибольшее количество кандидатов коформеров с целевыми свойствами таблетируемости (5,63%).
Эволюционная оптимизация значительно повышает вероятность того, что коформеры будут обладать желаемыми механическими свойствами.
GEMCODE успешно обнаружил экспериментально подтвержденные коформеры для никорандила, ривароксабана и парацетамола, а также предсказал новые потенциальные коформеры для никорандила.

Arxiv
Github

@machinelearning_interview
🔥 app-ideas — коллекция идей для приложений, которые помогут разработчикам улучшить навыки программирования!

🌟 Проекты охватывают различные уровни сложности — от новичков до продвинутых — и содержат требования к функционалу, что помогает практиковать реализацию реальных приложений

🔐 Лицензия: MIT

🖥 Github

freecourses
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 LLM-Agent-Paper-List — репозиторий, в котором собраны статьи по теме агентов на основе больших языковых моделей (LLM)! Статьи разделены на категории, такие как архитектуры LLM- агентов, автономные LLM-агенты, обучение с подкреплением (RL), методы обработки естественного языка, мультимодальные подходы и инструменты для разработки LLM-агентов и многое другое.

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Хотите попрактиковаться с SQL задачами? Тогда этот тренажёр идеально вам подойдет!

Он будет полезен тем, кто уже имеет базовые теоретические знания, готовится к собеседованию или просто хочет освежить свои навыки работы с синтаксисом.

Вот что мне особенно понравилось:
— Все задания направлены на практическое применение знаний. Они приближены к реальным задачам и охватывают популярные вопросы с собеседований.
— Очень удобно работать с таблицами и составлять запросы.
— Задания распределены по темам и уровням сложности, а также предусмотрены полезные подсказки.

Сохраняйте, чтобы не потерять! 👍

📌 Cсылка

#sql #practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Полезный репозиторий с курсами от компании Anthropic!

💡 Это — полезные материалы, которые обучают основам работы с языковой моделью Claude и включают курсы по основам API, интерактивному обучению инженерии промптов, применению промптов в реальных сценариях, их оценке и интеграции инструментов

🖥 Github

#курс #machinelearning #claude

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM