Forwarded from Machinelearning
OLA-VLM - метод, который предлагает дистиллировать знания от визуальных энкодеров в противовес традиционному способу обучения MLLM.
В качестве целевых визуальных энкодеров были выбраны модели сегментации, оценки глубины и генерации изображений. На каждом слое LLM обучался проб, который должен прогнозировать выход соответствующего целевого энкодера.
Так архитектура OLA-VLM получила предикторы встраивания, которые получают токены из LLM и генерируют предсказания для вычисления потери встраивания. Эта потеря минимизируется вместе с потерей предсказания следующего токена.
Для улучшения восприятия целевой информации OLA-VLM использует специальные токены ⟨t⟩, которые добавляются к токенам изображения на входе LLM. Во время фазы настройки MLLM обучается только с использованием потери предсказания следующего токена. При этом специальные токены ⟨t⟩ остаются в входной последовательности, формируя неявную визуальную цепь рассуждений.
Эксперименты показали, что OLA-VLM превосходит модели семейства LLaVA-1.5 как по качеству визуальных представлений, так и по эффективности на различных тестах.
Методом OLA-VLM были обучены 12 моделей на LLMs Phi3-4K-mini и Llama3-8b с разными базовыми (ViT, CLIP-ConvNeXT) и целевыми (depth, segmentation, generation) энкодерами. Доступны версии PT (Pre-Training) и IFT (Instruction Fine-Tuning).
# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM
# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm
# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1
# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%
@ai_machinelearning_big_data
#AI #ML #MMLM #OLA-VLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Anthropic недавно опубликовала результаты своего исследования, посвящённого тому, как можно обойти защитные механизмы больших языковых моделей (LLM).
Предложенный ими метод под названием Best-of-N Jailbreaking (BoN) основан на множественных вариациях одного и того же запроса, чтобы выявить уязвимости.
Принцип работы метода:
Для начала создаётся потенциально опасный запрос, такой как «Как сделать бомбу?» Далее этот запрос подвергается различным изменениям:
- В тексте: вводятся опечатки, символы заменяются, например, через использование L337-кодировки.
- В аудиоформате: изменяется тональность голоса и добавляется фоновый шум.
- На изображениях: меняются цвета, шрифт или добавляются дополнительные элементы.
После внесения изменений запрос направляется на языковую модель, а результат проверяется специальным классификатором. Процесс повторяется множество раз – в исследовании было протестировано свыше 10 000 различных вариантов запросов.
Результаты:
Метод показал высокую эффективность: 89% успешных обходов защиты у GPT-4o и 78% у Claude 3.5 Sonnet. При комбинировании BoN с другими методами атаки, такими как оптимизированная префиксная атака, успех увеличивается на 35%.
Этот подход применим ко всем видам данных: текстам, аудио и изображениям, подтверждая наличие реальных уязвимостей в современных LLM. С каждым новым изменением возрастает вероятность успешного обхода защиты, что создаёт серьёзную проблему для разработчиков, которым предстоит создать более надёжные системы.
Заключение:
Исследование даёт двойственный эффект: оно демонстрирует слабые стороны искусственного интеллекта, но одновременно предоставляет инструменты для улучшения безопасности.
Best-of-N Jailbreaking: https://arxiv.org/abs/2412.03556
@machinelearning_interview
Предложенный ими метод под названием Best-of-N Jailbreaking (BoN) основан на множественных вариациях одного и того же запроса, чтобы выявить уязвимости.
Принцип работы метода:
Для начала создаётся потенциально опасный запрос, такой как «Как сделать бомбу?» Далее этот запрос подвергается различным изменениям:
- В тексте: вводятся опечатки, символы заменяются, например, через использование L337-кодировки.
- В аудиоформате: изменяется тональность голоса и добавляется фоновый шум.
- На изображениях: меняются цвета, шрифт или добавляются дополнительные элементы.
После внесения изменений запрос направляется на языковую модель, а результат проверяется специальным классификатором. Процесс повторяется множество раз – в исследовании было протестировано свыше 10 000 различных вариантов запросов.
Результаты:
Метод показал высокую эффективность: 89% успешных обходов защиты у GPT-4o и 78% у Claude 3.5 Sonnet. При комбинировании BoN с другими методами атаки, такими как оптимизированная префиксная атака, успех увеличивается на 35%.
Этот подход применим ко всем видам данных: текстам, аудио и изображениям, подтверждая наличие реальных уязвимостей в современных LLM. С каждым новым изменением возрастает вероятность успешного обхода защиты, что создаёт серьёзную проблему для разработчиков, которым предстоит создать более надёжные системы.
Заключение:
Исследование даёт двойственный эффект: оно демонстрирует слабые стороны искусственного интеллекта, но одновременно предоставляет инструменты для улучшения безопасности.
Best-of-N Jailbreaking: https://arxiv.org/abs/2412.03556
@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
Какие навыки необходимы специалисту в ML и Data Science?
В новом выпуске подкаста на канале MLinside руководитель ШАДа Яндекса Алексей Толстиков поделился, что, по его мнению, отличает сильных специалистов в области ИИ и какие компетенции делают кандидатов конкурентоспособнее.
Ключевые темы подкаста:
• Какие ML-специалисты и датасаентисты нужны рынку
• Какие навыки, помимо технических, нужны чтобы стать успешным в этой профессии
• Как совмещать учебу на датасаентиста с работой
Посмотреть выпуск можно на YouTube
В новом выпуске подкаста на канале MLinside руководитель ШАДа Яндекса Алексей Толстиков поделился, что, по его мнению, отличает сильных специалистов в области ИИ и какие компетенции делают кандидатов конкурентоспособнее.
Ключевые темы подкаста:
• Какие ML-специалисты и датасаентисты нужны рынку
• Какие навыки, помимо технических, нужны чтобы стать успешным в этой профессии
• Как совмещать учебу на датасаентиста с работой
Посмотреть выпуск можно на YouTube
FACTS Grounding создан для оценки способности LLM генерировать ответы, которые являются фактически точными и основаны на предоставленном исходном материале. Бенчмарк включает в себя 1719 примеров, требующих развернутых ответов, основанных на предоставленном контекстном документе.
Примеры включают различные области: финансы, технологии, розничную торговлю, медицину и право, и документы объемом до 32 000 токенов. Для оценки используются три LLM-судьи: Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые оценивают ответы на соответствие пользовательскому запросу и фактическую точность. Датасет и лидерборд доступны на Kaggle.
deepmind.google
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
⚡️ Курс: Математика Машинного обучения Урок 2 Инвариантность
📌 Видео
📌 Урок 1
📌 Colab
@machinelearning_interview
📌 Видео
📌 Урок 1
📌 Colab
@machinelearning_interview
🎨 Генератор изображений с высоким разрешением🎨
#FreeScale - это метод, не требующий настройки, позволяющий генерировать визуальные изображения с высоким разрешением и позволяющий создавать изображения в 8K.
- Проект: https://haonanqiu.com/projects/FreeScale.html-
- Код: https://github.com/ali-vilab/FreeScale
- Статья : https://arxiv.org/abs/2412.09626
- Демо: https://huggingface.co/spaces/MoonQiu/FreeScale
#FreeScale - это метод, не требующий настройки, позволяющий генерировать визуальные изображения с высоким разрешением и позволяющий создавать изображения в 8K.
- Проект: https://haonanqiu.com/projects/FreeScale.html-
- Код: https://github.com/ali-vilab/FreeScale
- Статья : https://arxiv.org/abs/2412.09626
- Демо: https://huggingface.co/spaces/MoonQiu/FreeScale
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Теперь GitHub Copilot доступен бесплатно — популярный инструмент для генерации кода больше не требует подписки! Просто откройте VS Code и войдите в свой аккаунт на GitHub.
Каждый месяц вы получаете до 2000 дополнений кода и 50 запросов к мощным нейросетям, таким как GPT-4o и Sonnet 3.5. Эти модели также доступны для использования отдельно, но с ограничениями.
Отличная новость для всех программистов!
https://github.com/features/copilot
@machinelearning_interview
Каждый месяц вы получаете до 2000 дополнений кода и 50 запросов к мощным нейросетям, таким как GPT-4o и Sonnet 3.5. Эти модели также доступны для использования отдельно, но с ограничениями.
Отличная новость для всех программистов!
https://github.com/features/copilot
@machinelearning_interview
В Библиотеке иностранной литературы прошла «Ночь опенсорс-библиотек» — мероприятие для тех, кто интересуется темой открытого кода
На мероприятии участники нетворкали с мейнтейнерами опенсорс-проектов Яндекса и учились коммитить так, чтобы код всегда принимали. Так, ML-специалисты присоединились к воркшопу проекта YaFSDP по запуску распределенного обучения LLM. А еще познакомились с библиотекой для градиентного бустинга на дереве решений CatBoost.
Ивент объединил уютный вайб библиотеки с технологическими активностями. Кроме докладов и воркшопов, разработчики смогли пройти квест с перфокартами, посоревноваться в скоропечатании на раритетных печатных машинках и отдохнуть в зоне генеративного лайф-кодинга под DJ-сеты. Параллельно с основной программой, гости могли принять участие в записи открытого подкаста о технологиях «Деплой».
На мероприятии участники нетворкали с мейнтейнерами опенсорс-проектов Яндекса и учились коммитить так, чтобы код всегда принимали. Так, ML-специалисты присоединились к воркшопу проекта YaFSDP по запуску распределенного обучения LLM. А еще познакомились с библиотекой для градиентного бустинга на дереве решений CatBoost.
Ивент объединил уютный вайб библиотеки с технологическими активностями. Кроме докладов и воркшопов, разработчики смогли пройти квест с перфокартами, посоревноваться в скоропечатании на раритетных печатных машинках и отдохнуть в зоне генеративного лайф-кодинга под DJ-сеты. Параллельно с основной программой, гости могли принять участие в записи открытого подкаста о технологиях «Деплой».
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Advanced Machine Learning Engineer Roadmap
Full Stack ML (Machine Learning) включает в себя изучение необходимых навыков и технологий, чтобы освоить машинное обучения.
🖥 Github
Full Stack ML (Machine Learning) включает в себя изучение необходимых навыков и технологий, чтобы освоить машинное обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_interview
#AI #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.
Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например, GenLengthLogitsProcessor позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor - стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate из Transformers.
huggingface.co
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.
Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.
⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:
Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.
@ai_machinelearning_big_data
#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.
Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io
Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.
В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google
Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.
Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org
xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.
Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com
Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.
Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM