Machine learning Interview
28.2K subscribers
1.1K photos
83 videos
12 files
749 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
📌 Tech-Interview : Important Topics and Techniques

В этом репозитории собрано все, что нужно, чтобы подготовиться к техническим собеседованиям, а также самые важные советы и методики подготовки к собесу.

Github

@machinelearning_interview
👍83👎1🔥1
⚡️ Новая архитектура без трансформеров DeepCN , превосходит все возможные трансформеры в анализе временных рядов.

Репозиторий, показывающий, почему трансформеры не работают в прогнозировании временных рядов, демонстрирующий лучшие модели SOTA без трансформеров 'Transformers Are What You Don't Need' ->

Github

#прогнозирование

@machinelearning_interview
🔥113👍3
🎙Создание локально работающего голосового помощника

В этой статье я расскажу о том, как создать помощника, который позволит вокально взаимодействовать с LLM с открытым исходным кодом. Все компоненты будут работать локально на вашем компьютере.

Архитектура

Архитектура включает три отдельных компонента:

🔵сервис обнаружения “пробуждающего” слова, активирующего голосового помощника (wake-word detection service);
🔵сервис голосового помощника (voice assistant service);
🔵чат-сервис (chat service).

📌 Продолжение


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥3
⚜️Вышел релиз GitLab 16.9 с расширенным доступом к бета-версии Duo Chat

GitLab Duo Chat может:
Объяснить или пересказать содержание тикета, эпика или кода.
Ответить на конкретные вопросы об этих артефактах. Например: «собери все аргументы, упомянутые в комментариях применительно к решению, предложенному в этом тикете».
Сгенерировать код или текст на основе информации из этих артефактов. Например: «напиши документацию для этого кода».
Помочь вам начать работать с GitLab с нуля. Например: «создай файл конфигурации .gitlab-ci.yml для тестирования и сборки приложения Ruby on Rails с конвейером CI/CD GitLab».
Ответить на вопросы любого уровня сложности, от новичка до эксперта. Например: «Как настроить динамическое сканирование безопасности приложений для REST API?»
Ответить на последующие вопросы, чтобы вы могли последовательно проработать упомянутые сценарии.

🔗 Duo Chat

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2
4️⃣самые популярные функции активации, о которых нужно иметь представление

— Сигмоида
Нелинейна по своей природе, поэтому комбинация таких функций производит тоже нелинейную функцию. Так что она хорошо подходит для комбинации слоёв. Чаще всего применяется в задачах бинарной классификации, где нужно предсказать вероятность принадлежности к одному из 2 классов.

— Tanh
Гиперболический тангенс — это скорректированная сигмоидная функция. Стоит отметить, что градиент тангенциальной функции больше, чем у сигмоиды; она растёт быстрее. Активное используется в рекуррентных сетях, вероятностных моделях и т.д.

— ReLU
Имеет низкую вычислительную сложность, устойчива к переобучению. Область допустимых значений ReLu — [0, inf), то есть активация может "взорваться" от больших значений. Широко применяется в глубоких нейронных сетях благодаря простоте и отсутствию затухающего градиента

— Leaky ReLU
Модификация ReLU, призвана решить проблему "умирающей ReLU". Используется в нейронных сетях для введения нелинейности в выходные данные каждого нейрона.

📁Лекция МГУ в тему [pdf]

#junior

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍314🔥4
👍18🔥51
🌟 Самые известные виды и архитектуры нейронных сетей

Вот подробнее о некоторых из них:

Перцептрон — состоит из 1 слоя нейронов, которые принимают входные данные, вычисляют взвешенную сумму входов и используют функцию активации для преобразования этой суммы в выходной сигнал. Используется в основном для обучения линейно разделимых наборов данных.

Рекуррентная нейронная сеть (RNN) — имеет рекуррентные (обратные) связи, что позволяет ей использовать информацию из предыдущих шагов для обработки текущих входных данных. Это делает RNN идеальной для распознавания речи, рукописного текста и перевода.

LSTM (Long Short-Term Memory) — способна обучаться долговременным зависимостям, что делает их особенно полезными для задач, связанных с последовательностями. Они используются в широком диапазоне приложений, от распознавания рукописного текста и распознавания речи до генерации текста и анализа временных рядов.

Сверточная нейронная сеть (CNN) — используется для обработки данных с сетчатой топологией. Они особенно полезны для обработки изображений и других двухмерных входных данных. CNN широко используются в приложениях компьютерного зрения, таких как распознавание образов и обработка изображений.

Глубокая сеть доверия (DBN) — использует алгоритм глубокого обучения для обучения сложным вероятностным моделям. Используются для решения многих видов задач, таких как классификация, регрессия, кодирование, декодирование, моделирование и генерация.

Генеративно-состязательная сеть (GAN) — используется для генерации новых данных, похожих на данные обучения. GAN используется для решения многих видов задач, таких как генерация изображений, преобразование изображений и восстановление изображений.

Годная статья — "Зоопарк архитектур нейронных сетей"

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍216🔥6🤨4🤣2
⚡️ Топ репозиториев для развития ваших навыков разработчика.

- Полное руководство по работе с данными:
https://github.com/DataEngineer-io/data-engineer-handbook

- Руководство "Путь к Senior разработчику : https://github.com/jordan-cutler/path-to-senior-engineer-handbook

- Лучшие ресурсы по системному проектированию : https://github.com/systemdesign42/system-design

- Более 100 ресурсов, чтобы стать продвинутым разработчиком: https://github.com/gregorojstersek/resources-to-become-a-great-engineering-leader

@machinelearning_interview
👍65🔥2❤‍🔥1
📈 Вышел первый международный рейтинг Global Generative AI Landscape 2024. Его опубликовал AIPort.

В него попали самые заметные разработки в сфере GenAI по ключевым категориям, в том числе две нейросети от Яндекса: текстовая YandexGPT и мультимодальная YandexART.

Яндекс отмечен как одна из 11 компаний со всего мира, разрабатывающих более одного типа генеративных AI-моделей. В этот же список попали Open AI, Google, Microsoft, Meta, Tencent и другие.

Странами-лидерами по количеству активных компаний GenAI стали США, Китай, Аргентина, Великобритания, Израиль, Южная Африка.

▪️Читать

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Ищете идеи для создания реальных ML-проектов? 💡

Создание системы ML, которая предсказывает невыплату кредитам.

Полный код👷🏾‍♀️👷

https://www.kaggle.com/code/faressayah/lending-club-loan-defaulters-prediction/notebook

@machinelearning_interview
🔥16🥰21
🔥 Microsoft выпустил отличные курсы по искусственному интеллекту

Сохраняй!

12 бесплатных уроков Github!

Научитесь создавать приложения с использованием нейронных сетей!

Среди уроков есть изучение и сравнение разных языковых моделей (LLMs), основы промт-инжиниринга и создание приложений с ИИ.

@machinelearning_interview
👍12🔥54
⚡️ Interactively explore your Huggingface dataset with one line of code

Библиотека датасетов Hugging Face не только предоставляет доступ к более чем 70 тыс. общедоступных наборов данных, но и предлагает очень удобные конвейеры подготовки данных для пользовательских наборов.

Renumics Spotlight позволяет создавать интерактивные визуализации ваши данных. Поскольку Spotlight понимает семантику данных в наборах данных Hugging Face, вы можете начать работу всего с нескольких строк кода:

import datasets
from renumics import spotlight

ds = datasets.load_dataset('speech_commands', 'v0.01', split='validation')

spotlight.show(ds)


📌 Читать дальше
📌 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3👍1
📌Статья про метод главных компонент (PCA)

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

В статье рассказывается о том, что:
• PCA может быть реализован с использованием различных методов, включая вычисление собственных векторов и собственных значений ковариационной матрицы данных и сингулярное разложение матрицы данных.

• PCA имеет преимущества, такие как понижение размерности с сохранением большого количества информации и ускорение обучения моделей.

• Однако PCA также имеет недостатки, включая потерю части информации в данных и отсутствие смыслового значения главных компонент.

• Существуют альтернативы PCA, такие как LLE, t-SNE, UMAP и autoencoders, которые могут быть предпочтительными в определенных ситуациях и типах данных.

📎 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🔥1
⚡️ Статья от ML-разработчика Яндекса о том, что такое квантизация нейросетевых моделей, зачем она нужна и как с ней работать.

Квантизация — это процесс преобразования значений из представления с большим объёмом информации в более компактное представление. Она позволяет повысить эффективность модели, сэкономить ресурсы и улучшить пользовательский опыт. О методах, типах данных и сложностях, с которыми встречаются ML-инженеры, можно прочитать в статье.

▪️ Хабр

@machinelearning_interview
👍94🔥3
🖥 Cheatsheet по Pandas

Держите годную шпаргалку по работе с библиотекой Pandas, тут описано самое основное, что может понадобиться в работе:

Группировка данных по заданным параметрам.

Объединение нескольких таблиц в одну сводную.

Очищение данных от дубликатов и невалидных строк или столбцов.

Вывод определенных значений по фильтрам или уникальности.

Использование агрегирующих функций, включая подсчет значений, суммы элементов, определение среднего значения.

Визуализация собранных данных.

Пользуйтесь)

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2111🔥5💘2
🔥 GaLore is a new Memory Efficient Fine-tuning Technique

GaLore - это новый метод файнтюнинга, позволяющий эффективно использовать память, для “полной настройки” моделей с миллиардами параметров, таких как Llama 2 7B на графических процессорах. В отличие от LoRa, GaLore сокращает объем памяти, проецируя состояния оптимизатора и градиенты в более низкое измерение. 🤯

🚀 Обучает модели до 7 миллиардов параметров на графических процессорах, таких как NVIDIA RTX 4090
💾 До 82,5% сокращается объем памяти для хранения состояний оптимизатора
🔺 Может комбинироваться с 8-разрядными оптимизаторами для максимальной эффективности памяти
🥇 Превосходит LoRa на GLUE и предварительную подготовку Llama на C4
🤗 Интегрирован в Hugging Face Transformers с galore_adamw или galore_adamw_8bit


Статья: https://huggingface.co/papers/2403.03507
Блог с примерами: https://huggingface.co/blog/galore

@machinelearning_interview
👍10🔥32
Парадокс Монти-Холла из теории вероятностей

В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет

Итак, перед вами 3 двери, только за 1 из них приз.
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?

Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?

Итак, поменяется ли вероятность выиграть, если вы выберете другую дверь?
Для большей уверенности можно смоделировать это в Python

Да, если поменять дверь, вероятность выиграть будет 2/3, а не 1/3, как было бы, если не менять дверь
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться


📎А вот статья, которая поможет в этом разобраться — «Голуби брутфорсят парадокс Монти-Холла лучше людей»

📎 Код можно запустить тут

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥61
🎉 Deep Learning Paper Implementations

Коллекция простых пошаговых гайдов по реализации нейронных сетей на PyTorch и связанных с ними алгоритмов, документированных с пояснениями и примечаниями.

🔗 https://github.com/labmlai/annotated_deep_learning_paper_implementations

@machinelearning_interview
👍20🔥83🤩2