Machine learning Interview
24.5K subscribers
1.05K photos
74 videos
12 files
712 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Forwarded from Machinelearning
🔥 Бесплатный курс от Microsoft «ИИ-агенты для начинающих»

Курс содержит пошаговые инструкции с примерами кода, которые помогут научиться создавать автономных агентов с использованием машинного обучения.

Фокус на AI-агентах:
Если вас интересует именно разработка агентов — например, для симуляций, игр или интерактивных систем — данный курс будет полезен.

Каждый урок включает в себя:
- Лекцию, (видео уроки появятся в марте 2025 года)
- Примеры кода на Python с поддержкой Azure AI Foundry и Github Models
- Практические задания
- Ссылки на полезные дополнительные ресурсы

Если это ваш первый опыт работы с агентами, у Microsoft есть еще 1 курс «Генеративный ИИ для начинающих», который содержит 21 урок по построению моделей с помощью GenAI, лучше начать с него.

Переведен на 9 различных языков (русского нет).

Github

@ai_machinelearning_big_data

#course #Microsoft #aiagents #ai #ml #opensource #freecourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Awesome-LLM-Synthetic-Data - курируемый список ресурсов, инструментов и исследований, связанных с использованием синтетических данных для больших языковых моделей (LLM).

Чем полезен:
- Централизованная база знаний:
Вместо того чтобы самостоятельно искать статьи, библиотеки и исследования по синтетическим данным, здесь собрана готовая, структурированная подборка материалов.

- Актуальные инструменты и методы:
Репозиторий включает ссылки на инструменты для генерации синтетических данных, методы оценки их качества и примеры интеграции в пайплайны обучения LLM. Для практикующего специалиста это может стать источником идей для оптимизации процессов обучения и экспериментов с новыми методами.

- Поддержка исследований и разработки:
Если ваша работа связана с решением проблем, где реальных данных не хватает или данные зашумлены, использование синтетически данных может значительно улучшить результаты. Этот репозиторий поможет изучить современные подходы к генерации и использованию синтетических данных, что особенно актуально при разработке и тестировании новых моделей.

Github

@machinelearning_interview
⚡️ Разбор собеседования по машинному обучению в Озон 2025

https://uproger.com/razbor-sobesedovaniya-po-mashinnomu-obucheniyu-v-ozon-2025/

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Micro Agent — это инструмент командной строки, который использует возможности искусственного интеллекта для автоматической генерации и исправления кода!

💡 Его основная задача — создавать тесты и писать код, соответствующий этим тестам, обеспечивая разработчикам эффективный и надежный процесс разработки.

🔐 Лицензия: MIT

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 DeepSearcher: ИИ-комбайн для ваших данных.

Проект объединяет использование LLM, векторные базы данных для выполнения задач поиска, оценки, ризонинга на основе предоставленных данных (файлы, текст, источники).

Позиционируется разработчиками как инструмент для управления знаниями предприятия, интеллектуальных QA-систем и сценариев поиска информации.

DeepSearcher умеет использовать при необходимости информацию из интернета, совместим с векторными базами Milvus и их сервис-провайдером Zilliz Cloud, эмбедингами Pymilvus, OpenAI и VoyageAI. Есть возможность подключения LLM DeepSeek и OpenAI по API напрямую или через TogetherAI и SiliconFlow.
Поддерживается локальная загрузка файлов, подключение веб-краулеров FireCrawl, Crawl4AI и Jina Reader.

В ближайших планах - добавление возможности веб-клиппера, расширение списка поддерживаемых векторных баз, создание RESTful API интерфейса.

▶️ Локальная установка и запуск:

# Clone the repository
git clone https://github.com/zilliztech/deep-searcher.git

# Create a Python venv
python3 -m venv .venv
source .venv/bin/activate

# Install dependencies
cd deep-searcher
pip install -e .

# Quick start demo
from deepsearcher.configuration import Configuration, init_config
from deepsearcher.online_query import query

config = Configuration()

# Customize your config here
config.set_provider_config("llm", "OpenAI", {"model": "gpt-4o-mini"})
init_config(config = config)

# Load your local data
from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory=your_local_path)

# (Optional) Load from web crawling (`FIRECRAWL_API_KEY` env variable required)
from deepsearcher.offline_loading import load_from_website
load_from_website(urls=website_url)

# Query
result = query("Write a report about xxx.") # Your question here


📌Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Agents #DeepSearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 FlashVideo — это проект, направленный на создание высококачественного видео с использованием эффективных методов генерации! Проект включает две стадии: первая отвечает за генерацию видео с разрешением 270p, вторая — за улучшение качества до 1080p.

🔐 Лицензия: Apache-2.0

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!

Основные детали:
• Динамическая иерархическая разреженност
ь – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.

Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.

Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089

@machinelearning_interview
MoBA: Mixture of Block Attention for Long-Context LLMs представляет собой революционное решение для обработки длинных контекстов в языковых моделях. Вот что в нём интересно:

• Инновационная архитектура:

- Блочное разреженная внимание: Полный контекст делится на блоки, и каждый токен учится выбирать наиболее релевантные блоки, что позволяет эффективно обрабатывать длинные последовательности.

• Параметрически независимый механизм выбора: Внедрён механизм топ-k без дополнительных параметров, который автоматически переключается между полным и разреженным вниманием, что делает модель гибкой и адаптивной.

• Эффективность и масштабируемость:
MoBA обеспечивает значительное ускорение (например, 6.5x скорость при 1 млн входных токенов) без потери производительности, что особенно важно для задач с длинным контекстом.

• Практическое применение:
Модель уже доказала свою эффективность в продакшене и демонстрирует превосходное качество работы.

Проект MoBA будет полезен всем, работающим над масштабированием LLMs и задачами с длинным контекстом, предоставляя эффективный и гибкий механизм внимания, который можно легко интегрировать в существующие системы.

Github

@machinelearning_interview