Machine learning Interview
24.5K subscribers
1.06K photos
74 videos
12 files
714 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Forwarded from Machinelearning
🌟 OLA-VLM: метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов.

OLA-VLM - метод, который предлагает дистиллировать знания от визуальных энкодеров в противовес традиционному способу обучения MLLM.

В качестве целевых визуальных энкодеров были выбраны модели сегментации, оценки глубины и генерации изображений. На каждом слое LLM обучался проб, который должен прогнозировать выход соответствующего целевого энкодера.

Так архитектура OLA-VLM получила предикторы встраивания, которые получают токены из LLM и генерируют предсказания для вычисления потери встраивания. Эта потеря минимизируется вместе с потерей предсказания следующего токена.

Для улучшения восприятия целевой информации OLA-VLM использует специальные токены ⟨t⟩, которые добавляются к токенам изображения на входе LLM. Во время фазы настройки MLLM обучается только с использованием потери предсказания следующего токена. При этом специальные токены ⟨t⟩ остаются в входной последовательности, формируя неявную визуальную цепь рассуждений.

Эксперименты показали, что OLA-VLM превосходит модели семейства LLaVA-1.5 как по качеству визуальных представлений, так и по эффективности на различных тестах.

Методом OLA-VLM были обучены 12 моделей на LLMs Phi3-4K-mini и Llama3-8b с разными базовыми (ViT, CLIP-ConvNeXT) и целевыми (depth, segmentation, generation) энкодерами. Доступны версии PT (Pre-Training) и IFT (Instruction Fine-Tuning).

▶️ Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM

# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm

# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1

# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%


📌Лицензирование моделей: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub



@ai_machinelearning_big_data

#AI #ML #MMLM #OLA-VLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Anthropic недавно опубликовала результаты своего исследования, посвящённого тому, как можно обойти защитные механизмы больших языковых моделей (LLM).

Предложенный ими метод под названием Best-of-N Jailbreaking (BoN) основан на множественных вариациях одного и того же запроса, чтобы выявить уязвимости.

Принцип работы метода:
Для начала создаётся потенциально опасный запрос, такой как «Как сделать бомбу?» Далее этот запрос подвергается различным изменениям:

- В тексте: вводятся опечатки, символы заменяются, например, через использование L337-кодировки.
- В аудиоформате: изменяется тональность голоса и добавляется фоновый шум.
- На изображениях: меняются цвета, шрифт или добавляются дополнительные элементы.

После внесения изменений запрос направляется на языковую модель, а результат проверяется специальным классификатором. Процесс повторяется множество раз – в исследовании было протестировано свыше 10 000 различных вариантов запросов.

Результаты:
Метод показал высокую эффективность: 89% успешных обходов защиты у GPT-4o и 78% у Claude 3.5 Sonnet. При комбинировании BoN с другими методами атаки, такими как оптимизированная префиксная атака, успех увеличивается на 35%.

Этот подход применим ко всем видам данных: текстам, аудио и изображениям, подтверждая наличие реальных уязвимостей в современных LLM. С каждым новым изменением возрастает вероятность успешного обхода защиты, что создаёт серьёзную проблему для разработчиков, которым предстоит создать более надёжные системы.

Заключение:
Исследование даёт двойственный эффект: оно демонстрирует слабые стороны искусственного интеллекта, но одновременно предоставляет инструменты для улучшения безопасности.

Best-of-N Jailbreaking: https://arxiv.org/abs/2412.03556

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
Какие навыки необходимы специалисту в ML и Data Science?

В новом выпуске подкаста на канале MLinside руководитель ШАДа Яндекса Алексей Толстиков поделился, что, по его мнению, отличает сильных специалистов в области ИИ и какие компетенции делают кандидатов конкурентоспособнее.

Ключевые темы подкаста:

• Какие ML-специалисты и датасаентисты нужны рынку
• Какие навыки, помимо технических, нужны чтобы стать успешным в этой профессии
• Как совмещать учебу на датасаентиста с работой

Посмотреть выпуск можно на YouTube
✔️ Google DeepMind FACTS Grounding: бенчмарк для оценки фактологичности LLM.

FACTS Grounding создан для оценки способности LLM генерировать ответы, которые являются фактически точными и основаны на предоставленном исходном материале. Бенчмарк включает в себя 1719 примеров, требующих развернутых ответов, основанных на предоставленном контекстном документе.

Примеры включают различные области: финансы, технологии, розничную торговлю, медицину и право, и документы объемом до 32 000 токенов. Для оценки используются три LLM-судьи: Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые оценивают ответы на соответствие пользовательскому запросу и фактическую точность. Датасет и лидерборд доступны на Kaggle.

deepmind.google

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
⚡️ Курс: Математика Машинного обучения Урок 2 Инвариантность

📌 Видео
📌 Урок 1
📌 Colab

@machinelearning_interview
🎨 Генератор изображений с высоким разрешением🎨

#FreeScale - это метод, не требующий настройки, позволяющий генерировать визуальные изображения с высоким разрешением и позволяющий создавать изображения в 8K.

- Проект: https://haonanqiu.com/projects/FreeScale.html-
- Код: https://github.com/ali-vilab/FreeScale
- Статья : https://arxiv.org/abs/2412.09626
- Демо: https://huggingface.co/spaces/MoonQiu/FreeScale
📖 Эта статья представляет результаты внедрения и оценки работы медицинского чат-бота на основе LLM, названного Mo, в реальной практике!

🌟 Mo использовался в службе медицинских консультаций компании Alan, работающей во Франции и других странах. В ходе эксперимента, охватившего 926 случаев, исследовалась удовлетворённость пациентов, точность ответов и безопасность. Бот продемонстрировал улучшение опыта пациентов при сохранении высокого уровня безопасности благодаря контролю врачей. Статья подчёркивает потенциал таких систем в медицине.

🔗 Ссылка: *клик*

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌Топ 10 статей NVIDIA Developer Technical Blog за 2024 год.

NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.

🟢NVIDIA NIM - оптимизированные микросервисы инференса для мастшабного развертывания моделей ИИ

🟢Открытие бесплатного доступа к NVIDIA NIM для участников Developer Program

🟢NVIDIA GB200 NVL72 - обучение LLM с триллионами параметров и инференсом в реальном времени

🟢NVIDIA полностью переходит на GPU Kernel Modules с открытым исходным кодом

🟠Введение в мультимодальный RAG
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.

🟠Создание агента для анализа данных на основе LLM
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.

🟠StarCoder2 - раскройте свой потенциал в программировании
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.

🟠Как обрезать и дистиллировать Llama 3.1 8B в модель NVIDIA MiniTron 4B
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.

🟠Как за 4 шага перевести приложение RAG из пилотной версии в продакшен
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.

🟠RAPIDS cuDF ускоряет pandas почти в 150 раз без изменения кода
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.


🔜 Блогпост на developers.nvidia.com


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Perfect Roadmap To Learn Data Science In 2024

📖 Github

@machinelearning_interview
🔥 Теперь GitHub Copilot доступен бесплатно — популярный инструмент для генерации кода больше не требует подписки! Просто откройте VS Code и войдите в свой аккаунт на GitHub.

Каждый месяц вы получаете до 2000 дополнений кода и 50 запросов к мощным нейросетям, таким как GPT-4o и Sonnet 3.5. Эти модели также доступны для использования отдельно, но с ограничениями.

Отличная новость для всех программистов!

https://github.com/features/copilot


@machinelearning_interview
В Библиотеке иностранной литературы прошла «Ночь опенсорс-библиотек» — мероприятие для тех, кто интересуется темой открытого кода

На мероприятии участники нетворкали с мейнтейнерами опенсорс-проектов Яндекса и учились коммитить так, чтобы код всегда принимали. Так, ML-специалисты присоединились к воркшопу проекта YaFSDP по запуску распределенного обучения LLM. А еще познакомились с библиотекой для градиентного бустинга на дереве решений CatBoost.

Ивент объединил уютный вайб библиотеки с технологическими активностями. Кроме докладов и воркшопов, разработчики смогли пройти квест с перфокартами, посоревноваться в скоропечатании на раритетных печатных машинках и отдохнуть в зоне генеративного лайф-кодинга под DJ-сеты. Параллельно с основной программой, гости могли принять участие в записи открытого подкаста о технологиях «Деплой».
🔥 Monolith — это высокопроизводительная платформа машинного обучения, разработанная для крупномасштабного обучения рекомендательных систем и обработки данных. Именно этот фреймворк отвечает за систему рекомендаций в TikTok!

🔐 Лицензия: Apache-2.0

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Advanced Machine Learning Engineer Roadmap

Full Stack ML (Machine Learning) включает в себя изучение необходимых навыков и технологий, чтобы освоить машинное обучения.

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 В Яндексе рассказали, как учат YandexGPT понимать культурный контекст

🌟 Чтобы оценить, как модель считывает особенности нашей культуры, команда разработала большой бенчмарк — для этого потребовалось оцифровать и классифицировать понятие “культурный код”. Также для создания бенчмарка выяснили, понимает ли нейросеть цитаты и мемы, что помогло составить тестовый бенч на 200 вопросов. Позже он расширился в 2000 вопросов, на которые ответили AI-тренеры — их результаты были отобраны в средний скор, ставший контрольной группой для сравнения с ответами Yandex GPT.

🔗 Ссылка: *клик*

@machinelearning_interview

#AI #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ NVIDIA LogitsProcessor — библиотека для управления генерацией текста с помощью модификации вероятностного распределения токенов.

NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.

Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например, GenLengthLogitsProcessor позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor - стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate из Transformers.

huggingface.co

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen.

QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.

Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.

⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:

🟠возможность смешения языков и переключения между ними;
🟠склонность к зацикливанию в логических рассуждениях;
🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям.

Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.

📌Лицензирование: Qwen License.


🟡Статья
🟡Модель
🟡Demo
🟡Набор GGUF
🟡Набор MLX
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения.

Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.

Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io

✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года.

Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.

В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google

✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света.

Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.

Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org

✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений.

xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.

Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com

✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году.

Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.

Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM