Machine learning Interview
24.4K subscribers
1.05K photos
70 videos
12 files
704 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Парадокс Монти-Холла из теории вероятностей

В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет

Итак, перед вами 3 двери, только за 1 из них приз.
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?

Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?

Итак, поменяется ли вероятность выиграть, если вы выберете другую дверь?
Для большей уверенности можно смоделировать это в Python

Да, если поменять дверь, вероятность выиграть будет 2/3, а не 1/3, как было бы, если не менять дверь
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться


📎А вот статья, которая поможет в этом разобраться — «Голуби брутфорсят парадокс Монти-Холла лучше людей»

📎 Код можно запустить тут

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉 Deep Learning Paper Implementations

Коллекция простых пошаговых гайдов по реализации нейронных сетей на PyTorch и связанных с ними алгоритмов, документированных с пояснениями и примечаниями.

🔗 https://github.com/labmlai/annotated_deep_learning_paper_implementations

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
📌Карта навыков дата-сайнтистов и ML-разработчиков

Ребятки из Яндекса посчитали запросы ML-разработчиков про разные технические навыки. Для этого нашли пользователей, которые часто спрашивали что-нибудь про машинное обучение, и собрали все их программистские запросы — те, на которые Яндекс отвечал ссылками на Stack Overflow.
Навыками считали теги вопросов на Stack Overflow, популярностью навыков — число запросов, на которые Поиск отвечал страницами с соответствующими тегами.

Получилась вот такая карта технических навыков, которые ML-разработчики регулярно используют в своей работе. Размер навыка на карте соответствует числу посвящённых ему поисковых запросов. Чем ближе два навыка друг к другу, тем чаще они соседствуют с одними и теми же тегами в вопросах на Stack Overflow, то есть ближе контекст, в котором они применяются.

Отличная штука, чтобы понять, куда развиваться и расти дальше — пользуйтесь)

📎 Интерактивная карта

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 Вышло третье поколение больших языковых моделей YandexGPT

В Yandex Cloud уже лежит первая нейросеть из линейки YandexGPT 3 Pro: мощнее и точнее. Бизнес может дообучить её под любые свои задачи в сервисе ML-разработки Yandex DataSphere, встроить через API в продукты, а перед этим протестировать в демо.

Пишут, что обновленная нейросеть особенно хороша в клиентской поддержке, онлайн-продажах, цифровых коммуникациях, рекламе и в других бизнес-делах. В ближайшее время нейросети третьего поколения YandexGPT появятся в сервисах Яндекса для широкой аудитории.

@machinelearning_interview
🌟 Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос.

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Интерпретируемое машинное обучение для TabPFN

Держите интересное недавнее исследование про TabPFN и интерпертируемое ML.
Некоторые факты из этой работы:

TabPFN — сеть вероятностных признаков, сочетающая байесовский вывод и глубокое обучение.

TabPFN использует алгоритм прямого прохождения для логического вывода и прогнозирования.

Архитектура TabPFN облегчает внедрение дополнительных методов IML, таких как LOCO и Kernel SHAP.

TabPFN имеет ограничения в масштабируемости, которые могут быть устранены с помощью контекстной оптимизации и методов оценки данных.

Анализ чувствительности — это метод IML для конкретной модели, который может быть адаптирован для значений данных в TabPFN.

📎 Статья исследования

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Огромный список лучших бесплатных курсов Data Science.

Список

@machinelearning_interview
📌«Аутсорс разработка ML-систем: просто о сложном», Влад Кирпинский

Годное видео, в котором обсуждается процесс разработки ML-моделей изнутри, рассказывается про подводные камни в работе ML-специалиста и вообще много интересных вещей

Что внутри?
• 02:01 — Примеры использования машинного обучения
• 06:02 — Упаковка модели в Docker-контейнер
• 07:26 — Использование машинного обучения в проде
• 09:21 — ML-специалисты и их роль в машинном обучении
• 12:50 — ML-система и ее компоненты
• 15:03 — Выбор инфраструктуры и обучение моделей
• 18:47 — ML-платформа и ее компоненты
• 21:59 — Тестирование и авторизация
• 26:51 — Обсуждение видеокарт для обучения моделей

📎 YouTube

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Повышение скорости инференса больших языковых моделей

Разработчик из команды YandexGPT по полочкам раскладывает, в каких случаях подойдёт дистилляция и с помощью каких трюков можно заменить алгоритм PPO, как бороться с выбросами с помощью LLM.Int8, SmoothQuant и GPT-Q, и разбирает особые методы ускорения вроде Speculative Decoding и Continuous Batching.

🔗 https://habr.com/ru/companies/yandex/articles/801119/

@machinelearning_interview
⚡️ Jan - Bring AI to your Desktop

Jan
: альтернатива ChatGPT с открытым исходным кодом, которая работает на вашем компьютере в автономном режиме на 100%:

🔗 Github

@machinelearning_interview
📌Теоретические основы всех популярных алгоритмов ML и их реализация на Python 🖥

Держите полезный контент)
В данной статье в виде ссылок представлены все популярные алгоритмы классического машинного обучения с их подробным теоретическим описанием и немного упрощённой реализацией на Python, отражающей основную идею.

В конце каждой темы указаны дополнительные источники для более глубокого ознакомления, суммарное время прочтения статей по этим ссылкам составляет более трёх часов, что неплохо для погружения в тему
Пользуйтесь)

📎 Ссылка

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Interview questions on DS, AI, ML, DL, NLP, Python,computer vision.

Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

100 вопросов с собеседований Data Science 

100 вопросов для собеседования по машинному обучению в 2024 году

Более 100 вопросов с собеседования Python. Разбор реальных вопросов.

50 вопросов для собеседования по компьютерному зрению в 2024 году

50 вопросов для интервью по глубинному обучению в 2024 году

50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

Топ-60 вопросов с собеседований R

@machinelearning_interview
📌Стандартизация MLOps с CRISP-ML

Стандартизация процессов позволяет унифицировать и масштабировать лучшие практики управления исследованиями и разработкой. То же самое относится и к Machine Learning, конечно.
Например, CRISP-DM (Cross-Industry Standard Process for Data Mining) как наиболее распространенная методология выполнения Data Science проектов описывает их жизненный цикл в 6 фазах.

Вот, собственно, эти 6 фаз:
— понимание бизнеса и данных
— инженерия данных
— моделирование машинного обучения
— обеспечение качества приложений машинного обучения
— развертывание ML-модели
— мониторинг и обслуживание ML-системы

Подробнее об этом в статье
📎 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Machine Learning with Python and Scikit-Learn – Full Course

Держите сверхполезный видеокурс по основам Machine Learning, по Python в целом, и по Scikit-Learn.
Отлично подойдёт, если вы только вливаетесь в это, да и если давно занимаетесь ML, не повредит освежить основы
Enjoy)

📎 Курс YouTube [18 часов]

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM