Machine learning Interview

🐈‍⬛ A Comprehensive Benchmark of Machine and Deep Learning
Across Diverse Tabular Datasets

В новом обзоре алгоритмов машинного обучения были проанализированы 20 моделей на 111 датасетах, охватывающих задачи классификации и регрессии.

CatBoost, относящийся к группе моделей Tree-based Ensemble (TE), занял первое место, продемонстрировав лучшие результаты на 19 из 111 наборов данных. В то же время XGBoost оказался на 10-й позиции.

🔗 Подробности

👍15🤔4❤2🎉1

4.27K views17:05

Machine learning Interview

Forwarded from Machinelearning

🌟 Command-r и Command-r-plus: Обновление 08-2024 мультиязычных LLM.

Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.

Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.

Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.

Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r

Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.

✔️ Отличия от предыдущей версии и особенности обновления:

🟢улучшение процесса принятия решений о том, какой инструмент использовать в том или ином контексте, а также о том, стоит ли использовать тот или иной инструмент;

🟢улучшенная инструкция, следующая в преамбуле;

🟢улучшен многоязычный поиск RAG на языке пользователя;

🟢улучшенный анализ структурированных данных для манипулирования;

🟢повышена устойчивость к несемантическим изменениям подсказки, таким как пробелы или новые строки;

🟢модели будут отказываться от вопросов, на которые невозможно ответить;

🟢моделям подняли уровень качества цитирования, добавили возможность отключать цитирование для RAG;

🟢в Command-r перенастроен контроль длины рассуждений и форматирования;

🟢новая функция "Режимы безопасности" - строгий и контекстный, оба режима доступны к ручному управлению пользователю (переключение или отключение). Этот режим не отключает встроенную в модель базовую цензуру, он работает как дополнительный цензор. Более подробно про новый режим безопасности можно почитать в документации.

Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.

▶️Стоимость API:

🟠Command-r-08-20240 : $0.15/1M Input Tokens | $0.60/1M Output Tokens.

🟠Command-r-plus-08-2024 : $2.50/1M Input Tokens | $10.00/1M Output Tokens.

📌Лицензирование : CC-BY-NC-SA-4.0 License + соблюдение C4AI's Acceptable Use Policy.

🟡

Demo

🟡

Документация

🟡

Модель Command R

🟡

Модель Command R+

@ai_machinelearning_big_data

#AI #CommandR #Cohere #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥4❤3

3.73K views06:31

Machine learning Interview

⚡️ Бесплатный курс по фундаментальным моделям от Университета Ватерлоо

Курс охватывает обширный круг тем, связанных с глубоким обучением и его практическими приложениями.

Отличный курс для подготовки к собесу.

Вот краткий обзор тем:

🔘 Рекуррентные и свёрточные нейронные сети (RNN и CNN). 🔘 Обработка естественного языка (NLP) и компьютерное зрение (CV).
🔘 Механизмы внимания и трансформеры.
🔘 Предобучение языковых моделей.
🔘 Обучение с подкреплением через обратную связь (RLHF). 🔘 Создание мультимодальных моделей.
🔘 Диффузионные модели и генерация изображений.

📌 Курс

@machinelearning_interview

#datascience #python #machinelearning

❤11🔥7👍4👎1

4.61K viewsedited 09:50

Machine learning Interview

⚡️ Кластерная якорная регуляризация в рекомендательных системах

Интересный разбор от ML-специалистов Яндекса метода регуляризации в рекомендательных системах. Изначально метод Cluster Anchor Regularization предложили ресерчеры из DeepMind. В посте подробно рассказывается про иерархическую кластеризацию и якорную регуляризацию.

🟡

Cluster Anchor Regularization to Alleviate Popularity Bias in Recommender Systems

🟡

Разбор статьи

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥2❤1😱1

4.44K views14:33

Machine learning Interview

👣

Большая актуальная базу бесплатных API, которая обновляется ежедневно. Алгоритмы присваивают рейтинг каждому API на основе надежности, частоты ошибок и времени отклика.

Если API перестает работать или становится платным, он теряет рейтинг и удаляется с сайта. Это полезный ресурс для студентов и разработчиков, которые ищут доступные и рабочие API.

https://www.freepublicapis.com/

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍5❤2

5.82K views08:22

Machine learning Interview

🌟

Вышла бета-версия генеративной нейросети YandexART (Vi), способная создавать более реалистичные короткие видео

На Хабр вышла статья, описывающая процесс обучения YandexART до версии (Vi), которая создаёт качественные видео с движущимися объектами — например, с едущим автомобилем или крадущимся котом. Дело в том, что обновлённая нейросеть учитывает связь между кадрами — благодаря этому видео получаются более цельными и плавными.

В прошлых версиях модель позволяла получать анимации, которые выглядели так, будто двигалась камера, но не сам объект. Кроме того, от кадра к кадру объекты при генерации значительно менялись, однако в новой версии проблема была устранена.

📎 Статья

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥3👍2

4.07K views17:06

Machine learning Interview

⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@machinelearning_interview

👍20❤3❤‍🔥3🔥3⚡1

5.27K views11:39

Machine learning Interview

💻

Свежайщая Бесплатня книга "Introduction to Machine Learning"

Внутри множество важных тем. - оптимизация с серьёзными математическими выкладками,
- разборах метода главных компонент (PCA) с детальным анализом.

Так же внутри основные темы, такие как линейные модели и деревья решений, также освещены. Это отличное пособие для тех, кто хочет изучить как основы, так и более сложные аспекты машинного обучения.

📚 Книга

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥6❤3

4.43K views11:28

Machine learning Interview

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 repo2vec: простая библиотека, позволяющая общаться с публичным или частным репозиторием.

Иногда просто нужно узнать, как работает код и как его интегрировать, не тратя часы на изучение самого кода. Repo2vec - это как GitHub Copilot, но с самой актуальной информацией о целевом репозитории.

Возможности:

🟢 Простая настройка: запустите пару скриптов и у вас будет функциональный интерфейс чата для вашего кода;

🟢Документированные ответы: каждый ответ показывает, откуда в коде был извлечен контекст для ответа;

🟢Работает локально или в облаке: вы можете использовать Marqo для эмбеддинга + векторного хранилища и Ollama для чата с LLM или настроить эмбеддинги OpenAI + Pinecone для векторного хранилища + OpenAI или Anthropic для чата LLM;

🟢 Plug-and-play: каждый компонент конвейера легко заменяем. Инженерные стандарты уровня Google позволяют вам настраивать все по своему усмотрению;

🟢Индексация Issues (опционально): вы можете дополнительно индексировать issues, установив ключ --index-issues. И наоборот, вы можете отключить индексирование кода (и индексировать только issues), ключом --no-index-repo.

Помимо self-hosted варианта для приватных репозиториев, repo2vec существует в виде бесплатного онлайн-сервиса индексации публичных репозиториев Github - Code Sage.

▶️Установка на примере Marqo, Ollama и чатом в GradioUI:

# Install the library
pip install repo2vec

# Install Marqo instance using Docker:
docker rm -f marqo
docker pull marqoai/marqo:latest
docker run --name marqo -it -p 8882:8882 marqoai/marqo:latest

# Run index your codebase: 
index github-repo-name 
  --embedder-type=marqo 
  --vector-store-type=marqo 
  --index-name=your-index-name
  
# Сhat with a local LLM via Ollama

# Start Gradio:
chat github-repo-name
  --llm-provider=ollama
  --llm-model=llama3.1
  --vector-store-type=marqo 
  --index-name=your-index-name

📌Лицензирование : Apache 2.0 License.

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #RAG #repo2vec

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤3🔥2

5.21K views05:59

Machine learning Interview

Давайте проверим ваши знания работы бинарного дерева поиска. Посмотрите на изображение и ответьте на вопрос ниже.

#викторина #bst

👍6❤2🔥2

7.9K views17:05

Machine learning Interview

Что произойдет при добавлении узла со значением 25 в бинарное дерево поиска (BST) на изображении выше?

Anonymous Quiz

13%

Узел 25 добавится справа от узла 20

Узел 25 добавится слева от узла 20

64%

Узел 25 не будет добавлен, так как уже существует

Узел 25 добавится справа от узла 10

11%

Узел 25 не будет добавлен, так как справа от числа 20 уже есть число 40

👍18🔥5❤4

1.74K voters9.47K views17:05

Machine learning Interview

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🌲 Supertree — инструмент для создания интерактивных визуализаций деревьев решений:

- Работает с Jupyter Notebooks, Jupyter Lab, Google Colab и другими средами, поддерживающими рендеринг HTML.

- Поддерживает возможность масштабирования дерева (зум).

- Позволяет разворачивать и сворачивать выбранные узлы для более удобного анализа.

https://github.com/mljar/supertree

@machinelearning_interview

👍13🔥9❤3

5.1K views12:04

About

Blog

Apps

Platform