Machine learning Interview
24.4K subscribers
1.04K photos
69 videos
12 files
701 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🛥 The Data Provenance Initiative

Data Provenance Initiative - это Data Provenance Collection, представляет собой крупномасштабный аудит 44 коллекций данных, охватывающих 1800 с лишним наборов данных для тонкой настройки, и содержит подробную документацию об их источниках, лицензиях, создателях и других метаданных.

Скрипты в этом репозитории позволяют разработчикам отфильтровать наборы данных для тонкой настройки, которые наилучшим образом соответствуют их требованиям, начиная от самозаявленных лицензионных ограничений и заканчивая другими характеристиками данных

https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Bounding boxes для обнаружения объектов — что это, простым языком
Разработка алгоритмов обработки данных в реальном времени на Python
Лучшие практики Golang (20 лучших)
Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
5 уровней зрелости MLOps
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
Ближайшее будущее AI в рентгенологии. Мои комментарии к статье в RSNA
Использование Insightface для быстрого поиска и сравнения лиц на изображениях
OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
How to install NVIDIA drivers for machine learning on Ubuntu
Working through the fast.ai book in Rust - Part 1
Why ChatGPT and other LLMs are overrated and won't take your job
Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
A Quick Look At Natural Language Generation (NLG)
AI Log #2: What is a Cost Function in Machine Learning?
The Next Generation of AI Developer Tools
AI Development Guide 2024
What is a Conditional Generative Adversarial Network?
The State of Serverless GPU Part -2

Посмотреть:
🌐 Lightning Interview “Large Language Models: Past, Present and Future” ( 01:00:00)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. ( 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI ( 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! ( 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” ( 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future ( 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 AI Art: How is This Quality Even Possible? ( 05:29)

Хорошего дня!

#digest #machinelearning

@machinelearning_interview
🔥 Алгоритмы, которые вы должны знать, прежде чем проходить собеседования по системному проектированию

Эти алгоритмы полезны не только на собеседованиях, но и полезны для понимания любому инженеру-программисту.
Следует помнить, что понимание того, "как эти алгоритмы используются в реальных системах", обычно важнее, чем детали реализации на собеседовании по проектированию систем.

Что означают звездочки на диаграмме?

Пять звезд: Очень важно знать. Постарайстесь понять, как это работает и почему.

Три звезды: Важны в некоторой степени. Возможно, вам не нужно знать детали реализации.

Одна звезда: Продвинутый. Полезно знать Senior кандидатам.

@machinelearning_interview
🛠 Что такое RAG?

RAG - это техника, которая повышает производительность языковых моделей путём предоставления модели контекста вместе с вопросом.

Существуют разные подходы к использованию RAG. В некоторых случаях используют две LLM, в некоторые встраивают классификаторы или проводят поиск контекста по базе документов. Зависит от целей.

Мы возьмём самый простой:

Последовательность действий:

Передадим модели информацию о нашем заводе без дополнительного тюнинга;

Создадим базу векторов, где будут храниться ембеддинги ранее заданных вопросов (кэш);

При обращении к модели, будем проверять, задавались ли ранее похожие вопросы. Если да, то отдаём ранее сгенерированные ответы.

Зачем использовать кэш?

🟡Чтобы увеличить скорость ответов для вопросов, которые задавались ранее.
🟡Снизить затраты при использовании платных API (GTP-3.5, GPT-4) для ответов на однотипные и повторяющиеся вопросы.

Деконструкция RAG

Бывает трудно уследить за всеми стратегиями RAG, появившимися за последние месяцы.

Вот несколько основных тем, с ссылками на доп. материалы:

1️⃣ Преобразование запросов - вопросы пользователей могут быть не совсем удачно сформулированы для поиска.

2️⃣ Маршрутизация - Запросы могут быть направлены к различным источникам данных.

3️⃣ Построение запросов - Для доступа к структурированным данным естественный язык должен быть преобразован в определенный синтаксис запроса.

4️⃣ Построение индексов - Один из наиболее полезных приемов, который можно использовать, - это разделение: разделите то, что вы индексируете для поиска, и то, что вы передаете llm для синтеза ответа.

4️⃣.1️⃣ Полуструктурированные - В этом руководстве показано, как можно использовать RAG для работы с документами (статьями), содержащими таблицы.

5️⃣ Постпроцессинг - Получив найденные документы, можно по-разному их ранжировать/фильтровать их.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️Объяснение 4 наиболее часто используемых типов очередей на одной диаграммеℹ️

Очереди - это популярные структуры данных, широко используемые в системе. На диаграмме ниже показаны 4 различных типа очередей, которые мы часто используем.

1️⃣ Простая очередь FIFO
Простая очередь работает по принципу FIFO. Новый элемент вставляется в хвост очереди, а элемент удаляется из ее головы.

2️⃣ Кольцевой буфер
Круговую очередь также называют круговым или кольцевым буфером. Последний элемент связан с первым элементом. Вставка происходит в начале очереди, а удаление - в ее конце.

3️⃣ Приоритетная очередь
Элементы в приоритетной очереди имеют заранее определенные приоритеты. Мы берем из очереди элемент с самым высоким (или самым низким) приоритетом.

4️⃣ Deque
Очередь Deque также называется двусторонней очередью. Вставка и удаление могут происходить как в начале, так и в конце. Deque поддерживает как FIFO, так и LIFO (Last In First Out).

@machinelearning_interview
👉 Серия проектов и учебники по машинному обучению

Серия туториалов по pytorch.

В этом репозитории вы найдете учебники и проекты, связанные с машинным обучением.

🔗 https://github.com/aladdinpersson/Machine-Learning-Collection
🎞 www.youtube.com/c/AladdinPersson

@machinelearning_interview
В каком порядке выполняются SQL-запросы

В SQL порядок выполнения запросов обычно определяется логическим порядком обработки запросов.

Ниже приведен общий логический порядок обработки SQL-запросов:

1️⃣Предложение FROM:
Сначала обрабатываются источники данных, указанные в предложении FROM.

2️⃣Предложение WHERE:
Предложение WHERE применяется для фильтрации строк на основе заданных условий.

3️⃣Предложение GROUP BY:
Если присутствует предложение GROUP BY, то строки группируются по указанным столбцам.

4️⃣Предложение HAVING:
Если присутствует предложение HAVING, то оно фильтрует группы на основе агрегированных условий.

5️⃣Предложение SELECT:
Затем к набору результатов применяется предложение SELECT.
Выбираются столбцы и вычисляются выражения.

6️⃣Предложение ORDER BY:
Если присутствует предложение ORDER BY, то набор результатов сортируется по указанным столбцам.

7️⃣LIMIT/OFFSET:
Если имеется условие LIMIT или OFFSET, то конечный набор результатов будет соответственно ограничен или смещен.
🔥 5 бесплатных курсов от Microsoft, которые не стоит игнорировать:

1. Наука о данных
https://microsoft.github.io/Data-Science-For-Beginners/#/

2. Машинное обучение
https://microsoft.github.io/ML-For-Beginners/#/

3. Искусственный интеллект
https://microsoft.github.io/AI-For-Beginners/

4. Бессерверные приложения
https://learn.microsoft.com/en-us/training/paths/create-serverless-applications/

5. Microsoft Azure
https://learn.microsoft.com/en-us/training/paths/create-no-code-predictive-models-azure-machine-learning/

@machinelearning_interview
🖥 Почему PostgreSQL признан самым лбимой бд по результатам опроса разработчиков Stackoverflow?

На диаграмме показано множество вариантов использования PostgreSQL - одной базы данных, которая включает в себя почти все функции необходимых разработчикам.

🔹OLTP (Online Transaction Processing)
Мы можем использовать PostgreSQL для CRUD-операций (Create-Read-Update-Delete).

🔹OLAP (Online Analytical Processing)
Мы можем использовать PostgreSQL для аналитической обработки. PostgreSQL основан на архитектуре 𝐇𝐓𝐀𝐏 (Hybrid transactional/analytical processing), поэтому он может хорошо работать как с OLTP, так и с OLAP.

🔹FDW (Foreign Data Wrapper)
FDW - это расширение, доступное в PostgreSQL, которое позволяет нам обращаться к таблице или схеме одной базы данных из другой.

🔹Streaming
PipelineDB - это расширение PostgreSQL для высокопроизводительной агрегации временных рядов, предназначенное для работы с отчетами и аналитическими приложениями в реальном времени.

🔹Geospatial
PostGIS - это расширитель базы данных для объектно-реляционной базы данных PostgreSQL. Он добавляет поддержку географических объектов, позволяя выполнять запросы на определение местоположения в SQL.

🔹Временные ряды
Timescale расширяет PostgreSQL для работы с временными рядами и аналитикой. Например, разработчики могут объединять непрерывные потоки финансовых и тиковых данных с другими бизнес-данными для создания новых приложений и получения уникальных знаний.

🔹Распределенные таблицы
CitusData масштабирует Postgres за счет распределения данных и запросов.

Какая база данных вам нравится больше всего?

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 Бесплатный курс от Гарвардского университета: Введение в искусственный интеллект с помощью Python:

Это невероятный ресурс, которым стоит воспользоваться!

https://pll.harvard.edu/course/cs50s-introduction-artificial-intelligence-python

@machinelearning_interview
👉 Awesome ML для кибербезопасности

Список полезных инструментов и ресурсов, связанных с использованием машинного обучения для кибербезопасности.

🔗 https://github.com/jivoi/awesome-ml-for-cybersecurity

@machinelearning_interview
⚡️ 30+ проектов, которые помогут вам добиться успеха на собеседованиях и в поисках работы в области Data Science и Data Analytics.

Охватывает:

1. Начальный уровень
2. Срдений уровень
3. Продвинутый уровень

К проектам прилагаются датасет и пояснения к ним.

👉 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 101 упражнение Pandas & 100 упражнений по Numpy

Практические задачи по анализу данных с ответами. Полезные тренажёры, которые помогут подготовиться к собеседованиям.

📌 Pandas - https://machinelearningplus.com/python/101-pandas-exercises-python/
24 Важные функции Pandas

📌 Numpy - https://github.com/rougier/numpy-100
Продвинутый NumPy
Numpy видео-курс

@machinelearning_interview
⚡️ Если вы хотите начать изучать машинное обучение на практике:

Intro to Machine Learning от Kaggle поможет вам построить свою первую модель!

- 8 уроков.
- 100% бесплатно.


Поробовать: https://kaggle.com/learn/intro-to-machine-learning

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Как построить интерактивное пространство HF для визуализации набора данных изображений

https://huggingface.co/blog/MarkusStoll/interactive-hf-space-to-visualize-image-datasets

@machinelearning_interview
🖥 100 вопросов для подготовки к собесу Python

https://uproger.com/bolee-100-voprosov-s-sobesedovaniya-python-razbor-realnyh-voprosov/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Google почти всегда задает вопросы по SQL во время собеседований на вакансии Data Analytics, Data Science и Data Engineering.

Поэтому, если вы готовитесь к собеседованию по SQL, решите эти 11 РЕАЛЬНЫХ вопросов для собеседования Google по SQL.

https://datalemur.com/blog/google-sql-interview-questions

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM