Machine learning Interview
24.9K subscribers
1.09K photos
82 videos
12 files
745 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🐈‍⬛ A Comprehensive Benchmark of Machine and Deep Learning
Across Diverse Tabular Datasets


В новом обзоре алгоритмов машинного обучения были проанализированы 20 моделей на 111 датасетах, охватывающих задачи классификации и регрессии.

CatBoost, относящийся к группе моделей Tree-based Ensemble (TE), занял первое место, продемонстрировав лучшие результаты на 19 из 111 наборов данных. В то же время XGBoost оказался на 10-й позиции.

🔗 Подробности
👍15🤔42🎉1
Forwarded from Machinelearning
🌟 Command-r и Command-r-plus: Обновление 08-2024 мультиязычных LLM.

Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.

Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.

Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.

Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r

Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.

✔️ Отличия от предыдущей версии и особенности обновления:

🟢улучшение процесса принятия решений о том, какой инструмент использовать в том или ином контексте, а также о том, стоит ли использовать тот или иной инструмент;

🟢улучшенная инструкция, следующая в преамбуле;

🟢улучшен многоязычный поиск RAG на языке пользователя;

🟢улучшенный анализ структурированных данных для манипулирования;

🟢повышена устойчивость к несемантическим изменениям подсказки, таким как пробелы или новые строки;

🟢модели будут отказываться от вопросов, на которые невозможно ответить;

🟢моделям подняли уровень качества цитирования, добавили возможность отключать цитирование для RAG;

🟢в Command-r перенастроен контроль длины рассуждений и форматирования;

🟢новая функция "Режимы безопасности" - строгий и контекстный, оба режима доступны к ручному управлению пользователю (переключение или отключение). Этот режим не отключает встроенную в модель базовую цензуру, он работает как дополнительный цензор. Более подробно про новый режим безопасности можно почитать в документации.

Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.

▶️Стоимость API:

🟠Command-r-08-20240 : $0.15/1M Input Tokens | $0.60/1M Output Tokens.

🟠Command-r-plus-08-2024 : $2.50/1M Input Tokens | $10.00/1M Output Tokens.


📌Лицензирование : CC-BY-NC-SA-4.0 License + соблюдение C4AI's Acceptable Use Policy.


🟡Demo
🟡Документация
🟡Модель Command R
🟡Модель Command R+


@ai_machinelearning_big_data

#AI #CommandR #Cohere #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥43
⚡️ Бесплатный курс по фундаментальным моделям от Университета Ватерлоо

Курс охватывает обширный круг тем, связанных с глубоким обучением и его практическими приложениями.

Отличный курс для подготовки к собесу.

Вот краткий обзор тем:

🔘 Рекуррентные и свёрточные нейронные сети (RNN и CNN). 🔘 Обработка естественного языка (NLP) и компьютерное зрение (CV).
🔘 Механизмы внимания и трансформеры.
🔘 Предобучение языковых моделей.
🔘 Обучение с подкреплением через обратную связь (RLHF). 🔘 Создание мультимодальных моделей.
🔘 Диффузионные модели и генерация изображений.

📌 Курс

@machinelearning_interview

#datascience #python #machinelearning
11🔥7👍4👎1
⚡️ Кластерная якорная регуляризация в рекомендательных системах

Интересный разбор от ML-специалистов Яндекса метода регуляризации в рекомендательных системах. Изначально метод Cluster Anchor Regularization предложили ресерчеры из DeepMind. В посте подробно рассказывается про иерархическую кластеризацию и якорную регуляризацию.

🟡 Cluster Anchor Regularization to Alleviate Popularity Bias in Recommender Systems
🟡 Разбор статьи

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥21😱1
👣 Большая актуальная базу бесплатных API, которая обновляется ежедневно. Алгоритмы присваивают рейтинг каждому API на основе надежности, частоты ошибок и времени отклика.

Если API перестает работать или становится платным, он теряет рейтинг и удаляется с сайта. Это полезный ресурс для студентов и разработчиков, которые ищут доступные и рабочие API.

https://www.freepublicapis.com/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍52
🌟 Вышла бета-версия генеративной нейросети YandexART (Vi), способная создавать более реалистичные короткие видео

На Хабр вышла статья, описывающая процесс обучения YandexART до версии (Vi), которая создаёт качественные видео с движущимися объектами — например, с едущим автомобилем или крадущимся котом. Дело в том, что обновлённая нейросеть учитывает связь между кадрами — благодаря этому видео получаются более цельными и плавными.

В прошлых версиях модель позволяла получать анимации, которые выглядели так, будто двигалась камера, но не сам объект. Кроме того, от кадра к кадру объекты при генерации значительно менялись, однако в новой версии проблема была устранена.

📎 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3👍2
⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@machinelearning_interview
👍203❤‍🔥3🔥31
💻 Свежайщая Бесплатня книга "Introduction to Machine Learning"

Внутри множество важных тем. - оптимизация с серьёзными математическими выкладками,
- разборах метода главных компонент (PCA) с детальным анализом.

Так же внутри основные темы, такие как линейные модели и деревья решений, также освещены. Это отличное пособие для тех, кто хочет изучить как основы, так и более сложные аспекты машинного обучения.

📚 Книга
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥63
🌟 repo2vec: простая библиотека, позволяющая общаться с публичным или частным репозиторием.

Иногда просто нужно узнать, как работает код и как его интегрировать, не тратя часы на изучение самого кода. Repo2vec - это как GitHub Copilot, но с самой актуальной информацией о целевом репозитории.

Возможности:

🟢 Простая настройка: запустите пару скриптов и у вас будет функциональный интерфейс чата для вашего кода;

🟢Документированные ответы: каждый ответ показывает, откуда в коде был извлечен контекст для ответа;

🟢Работает локально или в облаке: вы можете использовать Marqo для эмбеддинга + векторного хранилища и Ollama для чата с LLM или настроить эмбеддинги OpenAI + Pinecone для векторного хранилища + OpenAI или Anthropic для чата LLM;

🟢 Plug-and-play: каждый компонент конвейера легко заменяем. Инженерные стандарты уровня Google позволяют вам настраивать все по своему усмотрению;

🟢Индексация Issues (опционально): вы можете дополнительно индексировать issues, установив ключ --index-issues. И наоборот, вы можете отключить индексирование кода (и индексировать только issues), ключом --no-index-repo.

Помимо self-hosted варианта для приватных репозиториев, repo2vec существует в виде бесплатного онлайн-сервиса индексации публичных репозиториев Github - Code Sage.

▶️Установка на примере Marqo, Ollama и чатом в GradioUI:

# Install the library
pip install repo2vec

# Install Marqo instance using Docker:
docker rm -f marqo
docker pull marqoai/marqo:latest
docker run --name marqo -it -p 8882:8882 marqoai/marqo:latest

# Run index your codebase:
index github-repo-name
--embedder-type=marqo
--vector-store-type=marqo
--index-name=your-index-name

# Сhat with a local LLM via Ollama

# Start Gradio:
chat github-repo-name
--llm-provider=ollama
--llm-model=llama3.1
--vector-store-type=marqo
--index-name=your-index-name


📌Лицензирование : Apache 2.0 License.


🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #RAG #repo2vec
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥2
Давайте проверим ваши знания работы бинарного дерева поиска. Посмотрите на изображение и ответьте на вопрос ниже.

#викторина #bst
👍62🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🌲 Supertree — инструмент для создания интерактивных визуализаций деревьев решений:

- Работает с Jupyter Notebooks, Jupyter Lab, Google Colab и другими средами, поддерживающими рендеринг HTML.

- Поддерживает возможность масштабирования дерева (зум).

- Позволяет разворачивать и сворачивать выбранные узлы для более удобного анализа.

https://github.com/mljar/supertree

@machinelearning_interview
👍13🔥93