Machine learning Interview
24.4K subscribers
1.04K photos
69 videos
12 files
701 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🔥 Алгоритмы, которые вы должны знать, прежде чем проходить собеседования по системному проектированию

Эти алгоритмы полезны не только на собеседованиях, но и полезны для понимания любому инженеру-программисту.
Следует помнить, что понимание того, "как эти алгоритмы используются в реальных системах", обычно важнее, чем детали реализации на собеседовании по проектированию систем.

Что означают звездочки на диаграмме?

Пять звезд: Очень важно знать. Постарайстесь понять, как это работает и почему.

Три звезды: Важны в некоторой степени. Возможно, вам не нужно знать детали реализации.

Одна звезда: Продвинутый. Полезно знать Senior кандидатам.

@machinelearning_interview
🛠 Что такое RAG?

RAG - это техника, которая повышает производительность языковых моделей путём предоставления модели контекста вместе с вопросом.

Существуют разные подходы к использованию RAG. В некоторых случаях используют две LLM, в некоторые встраивают классификаторы или проводят поиск контекста по базе документов. Зависит от целей.

Мы возьмём самый простой:

Последовательность действий:

Передадим модели информацию о нашем заводе без дополнительного тюнинга;

Создадим базу векторов, где будут храниться ембеддинги ранее заданных вопросов (кэш);

При обращении к модели, будем проверять, задавались ли ранее похожие вопросы. Если да, то отдаём ранее сгенерированные ответы.

Зачем использовать кэш?

🟡Чтобы увеличить скорость ответов для вопросов, которые задавались ранее.
🟡Снизить затраты при использовании платных API (GTP-3.5, GPT-4) для ответов на однотипные и повторяющиеся вопросы.

Деконструкция RAG

Бывает трудно уследить за всеми стратегиями RAG, появившимися за последние месяцы.

Вот несколько основных тем, с ссылками на доп. материалы:

1️⃣ Преобразование запросов - вопросы пользователей могут быть не совсем удачно сформулированы для поиска.

2️⃣ Маршрутизация - Запросы могут быть направлены к различным источникам данных.

3️⃣ Построение запросов - Для доступа к структурированным данным естественный язык должен быть преобразован в определенный синтаксис запроса.

4️⃣ Построение индексов - Один из наиболее полезных приемов, который можно использовать, - это разделение: разделите то, что вы индексируете для поиска, и то, что вы передаете llm для синтеза ответа.

4️⃣.1️⃣ Полуструктурированные - В этом руководстве показано, как можно использовать RAG для работы с документами (статьями), содержащими таблицы.

5️⃣ Постпроцессинг - Получив найденные документы, можно по-разному их ранжировать/фильтровать их.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️Объяснение 4 наиболее часто используемых типов очередей на одной диаграммеℹ️

Очереди - это популярные структуры данных, широко используемые в системе. На диаграмме ниже показаны 4 различных типа очередей, которые мы часто используем.

1️⃣ Простая очередь FIFO
Простая очередь работает по принципу FIFO. Новый элемент вставляется в хвост очереди, а элемент удаляется из ее головы.

2️⃣ Кольцевой буфер
Круговую очередь также называют круговым или кольцевым буфером. Последний элемент связан с первым элементом. Вставка происходит в начале очереди, а удаление - в ее конце.

3️⃣ Приоритетная очередь
Элементы в приоритетной очереди имеют заранее определенные приоритеты. Мы берем из очереди элемент с самым высоким (или самым низким) приоритетом.

4️⃣ Deque
Очередь Deque также называется двусторонней очередью. Вставка и удаление могут происходить как в начале, так и в конце. Deque поддерживает как FIFO, так и LIFO (Last In First Out).

@machinelearning_interview
👉 Серия проектов и учебники по машинному обучению

Серия туториалов по pytorch.

В этом репозитории вы найдете учебники и проекты, связанные с машинным обучением.

🔗 https://github.com/aladdinpersson/Machine-Learning-Collection
🎞 www.youtube.com/c/AladdinPersson

@machinelearning_interview
В каком порядке выполняются SQL-запросы

В SQL порядок выполнения запросов обычно определяется логическим порядком обработки запросов.

Ниже приведен общий логический порядок обработки SQL-запросов:

1️⃣Предложение FROM:
Сначала обрабатываются источники данных, указанные в предложении FROM.

2️⃣Предложение WHERE:
Предложение WHERE применяется для фильтрации строк на основе заданных условий.

3️⃣Предложение GROUP BY:
Если присутствует предложение GROUP BY, то строки группируются по указанным столбцам.

4️⃣Предложение HAVING:
Если присутствует предложение HAVING, то оно фильтрует группы на основе агрегированных условий.

5️⃣Предложение SELECT:
Затем к набору результатов применяется предложение SELECT.
Выбираются столбцы и вычисляются выражения.

6️⃣Предложение ORDER BY:
Если присутствует предложение ORDER BY, то набор результатов сортируется по указанным столбцам.

7️⃣LIMIT/OFFSET:
Если имеется условие LIMIT или OFFSET, то конечный набор результатов будет соответственно ограничен или смещен.
🔥 5 бесплатных курсов от Microsoft, которые не стоит игнорировать:

1. Наука о данных
https://microsoft.github.io/Data-Science-For-Beginners/#/

2. Машинное обучение
https://microsoft.github.io/ML-For-Beginners/#/

3. Искусственный интеллект
https://microsoft.github.io/AI-For-Beginners/

4. Бессерверные приложения
https://learn.microsoft.com/en-us/training/paths/create-serverless-applications/

5. Microsoft Azure
https://learn.microsoft.com/en-us/training/paths/create-no-code-predictive-models-azure-machine-learning/

@machinelearning_interview
🖥 Почему PostgreSQL признан самым лбимой бд по результатам опроса разработчиков Stackoverflow?

На диаграмме показано множество вариантов использования PostgreSQL - одной базы данных, которая включает в себя почти все функции необходимых разработчикам.

🔹OLTP (Online Transaction Processing)
Мы можем использовать PostgreSQL для CRUD-операций (Create-Read-Update-Delete).

🔹OLAP (Online Analytical Processing)
Мы можем использовать PostgreSQL для аналитической обработки. PostgreSQL основан на архитектуре 𝐇𝐓𝐀𝐏 (Hybrid transactional/analytical processing), поэтому он может хорошо работать как с OLTP, так и с OLAP.

🔹FDW (Foreign Data Wrapper)
FDW - это расширение, доступное в PostgreSQL, которое позволяет нам обращаться к таблице или схеме одной базы данных из другой.

🔹Streaming
PipelineDB - это расширение PostgreSQL для высокопроизводительной агрегации временных рядов, предназначенное для работы с отчетами и аналитическими приложениями в реальном времени.

🔹Geospatial
PostGIS - это расширитель базы данных для объектно-реляционной базы данных PostgreSQL. Он добавляет поддержку географических объектов, позволяя выполнять запросы на определение местоположения в SQL.

🔹Временные ряды
Timescale расширяет PostgreSQL для работы с временными рядами и аналитикой. Например, разработчики могут объединять непрерывные потоки финансовых и тиковых данных с другими бизнес-данными для создания новых приложений и получения уникальных знаний.

🔹Распределенные таблицы
CitusData масштабирует Postgres за счет распределения данных и запросов.

Какая база данных вам нравится больше всего?

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 Бесплатный курс от Гарвардского университета: Введение в искусственный интеллект с помощью Python:

Это невероятный ресурс, которым стоит воспользоваться!

https://pll.harvard.edu/course/cs50s-introduction-artificial-intelligence-python

@machinelearning_interview
👉 Awesome ML для кибербезопасности

Список полезных инструментов и ресурсов, связанных с использованием машинного обучения для кибербезопасности.

🔗 https://github.com/jivoi/awesome-ml-for-cybersecurity

@machinelearning_interview
⚡️ 30+ проектов, которые помогут вам добиться успеха на собеседованиях и в поисках работы в области Data Science и Data Analytics.

Охватывает:

1. Начальный уровень
2. Срдений уровень
3. Продвинутый уровень

К проектам прилагаются датасет и пояснения к ним.

👉 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 101 упражнение Pandas & 100 упражнений по Numpy

Практические задачи по анализу данных с ответами. Полезные тренажёры, которые помогут подготовиться к собеседованиям.

📌 Pandas - https://machinelearningplus.com/python/101-pandas-exercises-python/
24 Важные функции Pandas

📌 Numpy - https://github.com/rougier/numpy-100
Продвинутый NumPy
Numpy видео-курс

@machinelearning_interview
⚡️ Если вы хотите начать изучать машинное обучение на практике:

Intro to Machine Learning от Kaggle поможет вам построить свою первую модель!

- 8 уроков.
- 100% бесплатно.


Поробовать: https://kaggle.com/learn/intro-to-machine-learning

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Как построить интерактивное пространство HF для визуализации набора данных изображений

https://huggingface.co/blog/MarkusStoll/interactive-hf-space-to-visualize-image-datasets

@machinelearning_interview
🖥 100 вопросов для подготовки к собесу Python

https://uproger.com/bolee-100-voprosov-s-sobesedovaniya-python-razbor-realnyh-voprosov/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Google почти всегда задает вопросы по SQL во время собеседований на вакансии Data Analytics, Data Science и Data Engineering.

Поэтому, если вы готовитесь к собеседованию по SQL, решите эти 11 РЕАЛЬНЫХ вопросов для собеседования Google по SQL.

https://datalemur.com/blog/google-sql-interview-questions

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
📹 Устраиваемся на работу. Решаем тестовое задание на позицию Python Junior.

Видео
Задание
Код из видео
Тест
Список реальных тестовых заданий с собеседований.

@machinelearning_interview
⚡️ 100 вопросов с собеседований Data Science

Habr: https://habr.com/ru/articles/783766/

Видео: https://www.youtube.com/watch?v=6Pk4OgdNxXQ

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
📕 ML-Papers-of-the-Week
Public


Если вы ищете интересные и увлекательные статьи по ML и LLM, то предлагаем вам отличный репозиторий.

С начала года в этом репозитории собираются все самые модные и интересные статьи. Вы найдете здесь множество полезного чтива.

https://github.com/dair-ai/ML-Papers-of-the-Week

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM