Стандартизация процессов позволяет унифицировать и масштабировать лучшие практики управления исследованиями и разработкой. То же самое относится и к Machine Learning, конечно.
Вот, собственно, эти 6 фаз:
— понимание бизнеса и данных
— инженерия данных
— моделирование машинного обучения
— обеспечение качества приложений машинного обучения
— развертывание ML-модели
— мониторинг и обслуживание ML-системы
Подробнее об этом в статье
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Держите сверхполезный видеокурс по основам Machine Learning, по Python в целом, и по Scikit-Learn.
Отлично подойдёт, если вы только вливаетесь в это, да и если давно занимаетесь ML, не повредит освежить основы
Enjoy)
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Google мощно улучшила Gemini 1.5 Pro. Теперь нейронная сеть понимает аудио и работает быстрее.
Она может легко трансформировать аудио в текст, создавать краткую выжимку из лекции, анализировать любимую песню. Есть множество возможностей применения.
Тестируем новый функционал здесь. Нужно включить VPN.
@machinelearning_interview
Она может легко трансформировать аудио в текст, создавать краткую выжимку из лекции, анализировать любимую песню. Есть множество возможностей применения.
Тестируем новый функционал здесь. Нужно включить VPN.
@machinelearning_interview
📌 Яндекс открыл YandexART API и рассказал, как обучали модель
Исследователь генеративных моделей из Yandex Research делится подробностями разработки и усовершенствования API YandexART v2, которая недавно стала доступна для тестирования компаниям в Foundation Models, сервисе платформы Yandex Cloud: как отбирали данные для обучения модели, какие подходы лежат в её основе, как добились качества работы нейросети по нужным критериям. Внутри также замеры на DrawBench.
🔗 https://habr.com/ru/companies/yandex/articles/805745/
@machinelearning_interview
Исследователь генеративных моделей из Yandex Research делится подробностями разработки и усовершенствования API YandexART v2, которая недавно стала доступна для тестирования компаниям в Foundation Models, сервисе платформы Yandex Cloud: как отбирали данные для обучения модели, какие подходы лежат в её основе, как добились качества работы нейросети по нужным критериям. Внутри также замеры на DrawBench.
🔗 https://habr.com/ru/companies/yandex/articles/805745/
@machinelearning_interview
🦾 Google выпустили модель с новой архитектурой Griffin, которая превосходит transformers по своим характеристикам.
Griffin превосходит базовые показатели transformers baseline в контролируемых тестах как по шкале MMLU для различных размеров параметров, так и по среднему баллу в различных тестах.
Архитектура модели имеет преимущества в плане эффективности за счет более быстрого вывода и меньшего потребления памяти при выводе длинных контекстов.
▪Статья: arxiv.org/abs/2402.19427
▪Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@machinelearning_interview
Griffin превосходит базовые показатели transformers baseline в контролируемых тестах как по шкале MMLU для различных размеров параметров, так и по среднему баллу в различных тестах.
Архитектура модели имеет преимущества в плане эффективности за счет более быстрого вывода и меньшего потребления памяти при выводе длинных контекстов.
▪Статья: arxiv.org/abs/2402.19427
▪Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@machinelearning_interview
Неплохая статья о том, какую топологию может иметь кластер Apache Kafka при межрегиональной репликации по нескольким ЦОД и как это реализовать.
Плюс описывается, чем брокеры-наблюдатели отличаются от подписчиков в Confluent Server и при чем здесь конфигурация подтверждений acks в приложении-продюсере.
Для репликации в нескольких регионах кластер Kafka может иметь следующую топологию:
Преимущество растянутого кластера в том, что он сохраняет смещения, а также обеспечивает быстрое аварийное восстановление и автоматическое переключение клиента при сбое без дополнительного кода.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Держите полезную статью, которая поможет разобраться в таком алгоритме ML, как Monte Carlo Tree Search.
Некоторые факты из статьи:
• MCTS использует дерево для представления игры и симуляции возможных ходов. Дерево строится динамически, добавляя новые состояния при выборе наиболее перспективных ходов.
• MCTS сходится к minimax благодаря использованию оценочной функции и перспективного хода.
• В MCTS учитывается перспективность хода, основанная на оценке и любопытстве.
• MCTS и нейросети дополняют друг друга, создавая наборы данных для обучения и используя их в тандеме.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Часть 2
🚀 Часть 1
▪Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
▪Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
▪Вопросы по статистике
▪Вопросы по теории вероятности
▪Репозиторий для линейки онлайн-курсов по статистике
▪Вопросы и ответы для специалистов по анализу данных на Python
▪Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
▪Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)
@machinelearning_interview
🚀 Часть 1
▪Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
▪Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
▪Вопросы по статистике
▪Вопросы по теории вероятности
▪Репозиторий для линейки онлайн-курсов по статистике
▪Вопросы и ответы для специалистов по анализу данных на Python
▪Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
▪Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
▪Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)
@machinelearning_interview
— Как работает градиентный бустинг?
— Почему бустинг градиентный?
— Расскажи про свой опыт?
— Что такое Uplift-моделирование?
— Что за классы трансформируются в Uplift - моделировании?
— Что будешь делать, когда маркетолог попросит сделать модель оттока?
— Какие метрики знаешь для дисбаланса классов?
— Как подобрать отсчеку при перехода с Presicion на Recall?
— Как работает бустрап?
— Как оценить доверительный интервал площади?
— Как оценить метрику, если есть только модели и их оценки?
— Какие бывают схемы кросс-валидации?
— Как по другому называется точность оценки?
— Какая система валидации нужна оценке финального качества модели?
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ 4 Репозитория на Github для подготовки к 4 различным типам собеседований по разработке программного обеспечения:
1. Собеседования по системному дизайну: https://github.com/ashishps1/awesome-system-design-resources
2. Собеседования по низкоуровневому проектированию: https://github.com/ashishps1/awesome-low-level-design
3. Собеседования по программированию: https://github.com/ashishps1/awesome-leetcode-resources
4. Поведенческое собеседование: https://github.com/ashishps1/awesome-behavioral-interviews
@machinelearning_interview
1. Собеседования по системному дизайну: https://github.com/ashishps1/awesome-system-design-resources
2. Собеседования по низкоуровневому проектированию: https://github.com/ashishps1/awesome-low-level-design
3. Собеседования по программированию: https://github.com/ashishps1/awesome-leetcode-resources
4. Поведенческое собеседование: https://github.com/ashishps1/awesome-behavioral-interviews
@machinelearning_interview
🔥 Решение тестового задания на стажировку в Контур Data Science
В данном задании предлагается вам сделать модель, которая поможет отделу госзакупок извлекать нужный кусок текста из документа для того, чтобы сформировать анкету заявки.
То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу.
Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:
▪обеспечение исполнения контракта
▪обеспечение гарантийных обязательств
Соответственно, ваша модель, принимая на вход текст документа и наименование одного из двух пунктов, должна возвращать соответствующий кусочек текста из текста документа.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json.
Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю). Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json. Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю).
Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
▪Dataset
▪Решение
▪Github
@machinelearning_interview
В данном задании предлагается вам сделать модель, которая поможет отделу госзакупок извлекать нужный кусок текста из документа для того, чтобы сформировать анкету заявки.
То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу.
Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:
▪обеспечение исполнения контракта
▪обеспечение гарантийных обязательств
Соответственно, ваша модель, принимая на вход текст документа и наименование одного из двух пунктов, должна возвращать соответствующий кусочек текста из текста документа.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json.
Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю). Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json. Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю).
Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
▪Dataset
▪Решение
▪Github
@machinelearning_interview
🌟 Введение в машинное обучение (классические методы машинного обучения)
курс "Введение в машинное обучение" для студентов третьего курса ЭФ ЭМИТ РАНХиГС. В курсе расмотрены практические аспекты классических методов машинного обучения.
▪ Github
@machinelearning_interview
курс "Введение в машинное обучение" для студентов третьего курса ЭФ ЭМИТ РАНХиГС. В курсе расмотрены практические аспекты классических методов машинного обучения.
▪ Github
@machinelearning_interview
⚡ Data Structures Reference
Если вы собираетесь на техническое собеседование, то не забудьте повторить структуры данных и алгоритмы.
Здесь собраны все структуры данных с краткими определениями и красивой визуализацией.
Помимо всего прочего, в гайде перечислены сильные и слабые стороны каждой структуры, трюки и связанные алгоритмы.
Поэтому держите годную статью, для подготовки.
🔗 Гайд
🔗Теоретические основы всех популярных алгоритмов ML и их реализация на Python
@machinelearning_interview
Если вы собираетесь на техническое собеседование, то не забудьте повторить структуры данных и алгоритмы.
Здесь собраны все структуры данных с краткими определениями и красивой визуализацией.
Помимо всего прочего, в гайде перечислены сильные и слабые стороны каждой структуры, трюки и связанные алгоритмы.
Поэтому держите годную статью, для подготовки.
🔗 Гайд
🔗Теоретические основы всех популярных алгоритмов ML и их реализация на Python
@machinelearning_interview
1. SQL позволяет эффективно извлекать, фильтровать и обрабатывать данные из баз данных.
2. SQL предоставляет возможность проводить аналитические запросы к данным, выявлять закономерности, тренды и паттерны, что помогает в принятии бизнес-решений.
3. Часто данные хранятся в различных базах данных или системах. Знание SQL помогает дата-саентисту объединять данные из разных источников для создания цельных наборов данных.
4. Написание оптимизированных SQL-запросов позволяет ускорить обработку данных и повысить производительность аналитических процессов.
В целом, знание SQL позволяет дата-саентисту эффективно работать с данными, проводить анализ и извлекать ценные инсайты для бизнеса.
Предлагаю немного попрактиковаться и порешать задачи на знание SQL.
🖇 Решение заданий из тренажера SQL Academy
🖇 Вводный Курс с задачами по работе с Базами данных
🖇В репозитории представлены проекты курса Аналитик данных
🖇Решение задач hackerrank по SQL
🖇100 ключевых Вопросов с собеседований
🖇100 вопросов с собеседований Data Science
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Неплохая шпаргалка с ответами на популярные вопросы с собеседований по Machine Learning.
Вот некоторые из вопросов, которые тут затрагиваются:
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM