Machine learning Interview
24.4K subscribers
1.04K photos
67 videos
12 files
697 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
👉 Reinforcement Learning

Серия простых методов и учебных пособий по обучению с подкреплением, охватывающая как базовые алгоритмы RL, так и недавно разработанные и обновленные усовершенствованные алгоритмы.

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Представлена Embed-v3 - новейшая модель эмбединга текста.

Embed-v3 превосходит системы семантического поиска и RAG и обладает улучшенной оценкой качества контента и высокой эффективностью.

https://clarifai.com/cohere/embed/models/cohere-embed-english-v3_0

@machinelearning_interview
Хотите научиться строить полноценный ML конвейер в реальном времени 🛠️

Гайд по его созданию Шаг за шагом На Python 𓊍:

https://www.realworldml.xyz/blog/real-time-pipelines-in-python

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.

Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd


Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.

Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3

Repo: https://github.com/rapidsai/cudf

@machinelearning_interview
⚡️ 5 функций активации, которые вы должны знать!

@machinelearning_interview
Модель RWKV V5 - 1.5B SOTA!

И в настоящее время является лучшей в мире 🔥 мультиязычной моделью 🚀 в диапазоне параметров <2B (aka smol model).

Это делает ее сильной моделью по умолчанию в своей весовой категории. Она может служить прочной основой для дальнейшей тонкой настройки.

https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio

@machinelearning_interview
📌 Это очень интересно

Модель 13B, превосходящая GPT 4 по логическим рассуждениям
Ссылка: https://arxiv.org/pdf/2311.06158.pdf

@machinelearning_interview
🖥 Если вы работаете в области данных, вам предстоит пройти собеседование по SQL.

Неважно, кто вы - специалист по машинному обучению или инженер по обработке данных.

SQL присутствует везде.

Вот несколько кратких советов от начинающих до продвинутых, которые вы должны знать и уметь говорить на собеседовании по SQL.

Начинающим
- Уметь объяснить различные типы объединений. Иногда я видел, что этот вопрос задается рекрутерами в качестве отборочного, чтобы убедиться, что они хотят взять вас на работу.
- Знать, когда в порядке выполнения операций в SQL используется HAVING, а когда WHERE.
- Знать разницу между UNION и UNION ALL

Mid
- Понимать, как использовать оператор CASE внутри функции SUM или COUNT
- Знать, по крайней мере, 1-2 способа оптимизации запроса, и если вы решите, что одним из этих способов является создание индекса в таблице, то вы должны знать, какие плюсы и минусы есть у индекса.
- Уметь реализовать как подзапрос, так и CTE, но использовать CTE, если вы хотите доказать, что у вас хорошие навыки работы с SQL.

Продвинутый
- Знать, как решить SQL задачу с использованием оконной функции и без нее.
- Понимать и уметь объяснить, что такое коррелированный подзапрос.
- Просто сошлитесь на то, что вы посмотрите на план выполнения запроса. Рекрутеры будут шокированы тем, что вы вообще знаете, что это такое.

Мне бы хотелось услышать, какие вопросы вам задавали на собеседованиях по SQL. Пожалуйста, поделитесь ими в комментаряих!

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🛥 The Data Provenance Initiative

Data Provenance Initiative - это Data Provenance Collection, представляет собой крупномасштабный аудит 44 коллекций данных, охватывающих 1800 с лишним наборов данных для тонкой настройки, и содержит подробную документацию об их источниках, лицензиях, создателях и других метаданных.

Скрипты в этом репозитории позволяют разработчикам отфильтровать наборы данных для тонкой настройки, которые наилучшим образом соответствуют их требованиям, начиная от самозаявленных лицензионных ограничений и заканчивая другими характеристиками данных

https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Bounding boxes для обнаружения объектов — что это, простым языком
Разработка алгоритмов обработки данных в реальном времени на Python
Лучшие практики Golang (20 лучших)
Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
5 уровней зрелости MLOps
Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
Ближайшее будущее AI в рентгенологии. Мои комментарии к статье в RSNA
Использование Insightface для быстрого поиска и сравнения лиц на изображениях
OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
How to install NVIDIA drivers for machine learning on Ubuntu
Working through the fast.ai book in Rust - Part 1
Why ChatGPT and other LLMs are overrated and won't take your job
Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
A Quick Look At Natural Language Generation (NLG)
AI Log #2: What is a Cost Function in Machine Learning?
The Next Generation of AI Developer Tools
AI Development Guide 2024
What is a Conditional Generative Adversarial Network?
The State of Serverless GPU Part -2

Посмотреть:
🌐 Lightning Interview “Large Language Models: Past, Present and Future” ( 01:00:00)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. ( 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI ( 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! ( 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” ( 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future ( 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 AI Art: How is This Quality Even Possible? ( 05:29)

Хорошего дня!

#digest #machinelearning

@machinelearning_interview
🔥 Алгоритмы, которые вы должны знать, прежде чем проходить собеседования по системному проектированию

Эти алгоритмы полезны не только на собеседованиях, но и полезны для понимания любому инженеру-программисту.
Следует помнить, что понимание того, "как эти алгоритмы используются в реальных системах", обычно важнее, чем детали реализации на собеседовании по проектированию систем.

Что означают звездочки на диаграмме?

Пять звезд: Очень важно знать. Постарайстесь понять, как это работает и почему.

Три звезды: Важны в некоторой степени. Возможно, вам не нужно знать детали реализации.

Одна звезда: Продвинутый. Полезно знать Senior кандидатам.

@machinelearning_interview
🛠 Что такое RAG?

RAG - это техника, которая повышает производительность языковых моделей путём предоставления модели контекста вместе с вопросом.

Существуют разные подходы к использованию RAG. В некоторых случаях используют две LLM, в некоторые встраивают классификаторы или проводят поиск контекста по базе документов. Зависит от целей.

Мы возьмём самый простой:

Последовательность действий:

Передадим модели информацию о нашем заводе без дополнительного тюнинга;

Создадим базу векторов, где будут храниться ембеддинги ранее заданных вопросов (кэш);

При обращении к модели, будем проверять, задавались ли ранее похожие вопросы. Если да, то отдаём ранее сгенерированные ответы.

Зачем использовать кэш?

🟡Чтобы увеличить скорость ответов для вопросов, которые задавались ранее.
🟡Снизить затраты при использовании платных API (GTP-3.5, GPT-4) для ответов на однотипные и повторяющиеся вопросы.

Деконструкция RAG

Бывает трудно уследить за всеми стратегиями RAG, появившимися за последние месяцы.

Вот несколько основных тем, с ссылками на доп. материалы:

1️⃣ Преобразование запросов - вопросы пользователей могут быть не совсем удачно сформулированы для поиска.

2️⃣ Маршрутизация - Запросы могут быть направлены к различным источникам данных.

3️⃣ Построение запросов - Для доступа к структурированным данным естественный язык должен быть преобразован в определенный синтаксис запроса.

4️⃣ Построение индексов - Один из наиболее полезных приемов, который можно использовать, - это разделение: разделите то, что вы индексируете для поиска, и то, что вы передаете llm для синтеза ответа.

4️⃣.1️⃣ Полуструктурированные - В этом руководстве показано, как можно использовать RAG для работы с документами (статьями), содержащими таблицы.

5️⃣ Постпроцессинг - Получив найденные документы, можно по-разному их ранжировать/фильтровать их.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️Объяснение 4 наиболее часто используемых типов очередей на одной диаграммеℹ️

Очереди - это популярные структуры данных, широко используемые в системе. На диаграмме ниже показаны 4 различных типа очередей, которые мы часто используем.

1️⃣ Простая очередь FIFO
Простая очередь работает по принципу FIFO. Новый элемент вставляется в хвост очереди, а элемент удаляется из ее головы.

2️⃣ Кольцевой буфер
Круговую очередь также называют круговым или кольцевым буфером. Последний элемент связан с первым элементом. Вставка происходит в начале очереди, а удаление - в ее конце.

3️⃣ Приоритетная очередь
Элементы в приоритетной очереди имеют заранее определенные приоритеты. Мы берем из очереди элемент с самым высоким (или самым низким) приоритетом.

4️⃣ Deque
Очередь Deque также называется двусторонней очередью. Вставка и удаление могут происходить как в начале, так и в конце. Deque поддерживает как FIFO, так и LIFO (Last In First Out).

@machinelearning_interview
👉 Серия проектов и учебники по машинному обучению

Серия туториалов по pytorch.

В этом репозитории вы найдете учебники и проекты, связанные с машинным обучением.

🔗 https://github.com/aladdinpersson/Machine-Learning-Collection
🎞 www.youtube.com/c/AladdinPersson

@machinelearning_interview
В каком порядке выполняются SQL-запросы

В SQL порядок выполнения запросов обычно определяется логическим порядком обработки запросов.

Ниже приведен общий логический порядок обработки SQL-запросов:

1️⃣Предложение FROM:
Сначала обрабатываются источники данных, указанные в предложении FROM.

2️⃣Предложение WHERE:
Предложение WHERE применяется для фильтрации строк на основе заданных условий.

3️⃣Предложение GROUP BY:
Если присутствует предложение GROUP BY, то строки группируются по указанным столбцам.

4️⃣Предложение HAVING:
Если присутствует предложение HAVING, то оно фильтрует группы на основе агрегированных условий.

5️⃣Предложение SELECT:
Затем к набору результатов применяется предложение SELECT.
Выбираются столбцы и вычисляются выражения.

6️⃣Предложение ORDER BY:
Если присутствует предложение ORDER BY, то набор результатов сортируется по указанным столбцам.

7️⃣LIMIT/OFFSET:
Если имеется условие LIMIT или OFFSET, то конечный набор результатов будет соответственно ограничен или смещен.
🔥 5 бесплатных курсов от Microsoft, которые не стоит игнорировать:

1. Наука о данных
https://microsoft.github.io/Data-Science-For-Beginners/#/

2. Машинное обучение
https://microsoft.github.io/ML-For-Beginners/#/

3. Искусственный интеллект
https://microsoft.github.io/AI-For-Beginners/

4. Бессерверные приложения
https://learn.microsoft.com/en-us/training/paths/create-serverless-applications/

5. Microsoft Azure
https://learn.microsoft.com/en-us/training/paths/create-no-code-predictive-models-azure-machine-learning/

@machinelearning_interview
🖥 Почему PostgreSQL признан самым лбимой бд по результатам опроса разработчиков Stackoverflow?

На диаграмме показано множество вариантов использования PostgreSQL - одной базы данных, которая включает в себя почти все функции необходимых разработчикам.

🔹OLTP (Online Transaction Processing)
Мы можем использовать PostgreSQL для CRUD-операций (Create-Read-Update-Delete).

🔹OLAP (Online Analytical Processing)
Мы можем использовать PostgreSQL для аналитической обработки. PostgreSQL основан на архитектуре 𝐇𝐓𝐀𝐏 (Hybrid transactional/analytical processing), поэтому он может хорошо работать как с OLTP, так и с OLAP.

🔹FDW (Foreign Data Wrapper)
FDW - это расширение, доступное в PostgreSQL, которое позволяет нам обращаться к таблице или схеме одной базы данных из другой.

🔹Streaming
PipelineDB - это расширение PostgreSQL для высокопроизводительной агрегации временных рядов, предназначенное для работы с отчетами и аналитическими приложениями в реальном времени.

🔹Geospatial
PostGIS - это расширитель базы данных для объектно-реляционной базы данных PostgreSQL. Он добавляет поддержку географических объектов, позволяя выполнять запросы на определение местоположения в SQL.

🔹Временные ряды
Timescale расширяет PostgreSQL для работы с временными рядами и аналитикой. Например, разработчики могут объединять непрерывные потоки финансовых и тиковых данных с другими бизнес-данными для создания новых приложений и получения уникальных знаний.

🔹Распределенные таблицы
CitusData масштабирует Postgres за счет распределения данных и запросов.

Какая база данных вам нравится больше всего?

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 Бесплатный курс от Гарвардского университета: Введение в искусственный интеллект с помощью Python:

Это невероятный ресурс, которым стоит воспользоваться!

https://pll.harvard.edu/course/cs50s-introduction-artificial-intelligence-python

@machinelearning_interview
👉 Awesome ML для кибербезопасности

Список полезных инструментов и ресурсов, связанных с использованием машинного обучения для кибербезопасности.

🔗 https://github.com/jivoi/awesome-ml-for-cybersecurity

@machinelearning_interview