Microsoft Research анонсировала инновационные языковые модели Phi-2
Microsoft Research представила новое поколение языковых моделей серии Phi.
Модель Phi-1, с параметрами в 1.3 млрд., показала отличные результаты в программировании на Python.
Phi-1.5, имея такое же число параметров, соперничает с моделями, параметры которых превышают ее в 5 раз.
Phi-2 с 2.7 млрд. параметров решает сложные задачи, опережая модели в 25 раз крупнее ее.
Инновации в масштабировании и курировании данных сильно улучшили производительность Phi-2.
14 дней на 96 GPU потребовалось для обучения Phi-2.
По сравнению с открытыми моделями, Phi-2 лучше справляется с токсичностью и предвзятостью.
Превзошла модели Mistral и Llama-2, обходит Google Gemini Nano 2, несмотря на меньший размер.
Тестирование Phi-2 проходило с использованием внутренних сетов данных и задач от Microsoft.
Эволюция в сторону уменьшения размера при повышении качества - выглядит многообещающе.
#MicrosoftResearch #Phi2 #AI
Microsoft Research представила новое поколение языковых моделей серии Phi.
Модель Phi-1, с параметрами в 1.3 млрд., показала отличные результаты в программировании на Python.
Phi-1.5, имея такое же число параметров, соперничает с моделями, параметры которых превышают ее в 5 раз.
Phi-2 с 2.7 млрд. параметров решает сложные задачи, опережая модели в 25 раз крупнее ее.
Инновации в масштабировании и курировании данных сильно улучшили производительность Phi-2.
14 дней на 96 GPU потребовалось для обучения Phi-2.
По сравнению с открытыми моделями, Phi-2 лучше справляется с токсичностью и предвзятостью.
Превзошла модели Mistral и Llama-2, обходит Google Gemini Nano 2, несмотря на меньший размер.
Тестирование Phi-2 проходило с использованием внутренних сетов данных и задач от Microsoft.
Эволюция в сторону уменьшения размера при повышении качества - выглядит многообещающе.
#MicrosoftResearch #Phi2 #AI
👍1
MVoT - Multimodal Visualization-of-Thought: Новый подход к рассуждениям ИИ-систем
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
👍5❤2✍2❤🔥1👨💻1
Forwarded from Machinelearning
Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.
В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».
В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.
Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.
Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.
В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:
и эмбединги для генерации базы знаний:
⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный
llama_model.py
в src/kblam/models
.@ai_machinelearning_big_data
#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13✍7❤🔥1