Machine Learning Algorithms Full Course | Tutorial
https://www.youtube.com/watch?v=XXHIK4iJYek
https://www.youtube.com/watch?v=XXHIK4iJYek
Forwarded from Machinelearning
Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.
Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!
https://awesomeflux.com/
@ai_machinelearning_big_data
#AI #FLUX #ML #Awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤2🥰2
Forwarded from Machinelearning
Система HMAХ анализирует данные, собираемые с поездов, чтобы предсказывать оптимальное время для замены деталей. Это первый коммерческий продукт Hitachi, использующий ИИ для обслуживания железных дорог, и он уже работает на некоторых маршрутах в Великобритании и Италии.
HMAX использует GPU от NVIDIA для мгновенного анализа изображений и данных о температуре и вибрации. Этот анализ позволяет проводить техобслуживание по мере износа узлов и повышает безопасность поездок.
kyodonews.net
OpenFinLLM Leaderboard - рейтинг LLM для финансовых задач. Он оценивает модели на 40 задачах в 7 категориях: извлечение информации, текстовый анализ, вопросы и ответы, генерация текста, управление рисками, прогнозирование и принятие решений. Для оценки используются метрики: точность, F-меру, ROUGE и коэффициент корреляции Мэтьюза.
С момента запуска в рейтинге лидируют модели GPT-4 и Llama 3.1, показавшие высокую точность в задачах по анализу финансовых настроений. В задачах финансового прогнозирования компактные модели Llama-3.1-7b и internlm-7b превосходят более крупные модели.
huggingface.co
MongoDB представила обновлённую версию 8.0 своей базы данных линейки Enterprise и облачного сервиса Atlas. Обновления обещают увеличить пропускную способность на 32%, ускорить пакетную запись на 56% и повысить скорость параллельной записи на 20%.
Для решения проблем, связанных с быстрым развитием ИИ, неопределённостью в выборе технологий и нехваткой навыков, MongoDB запустила программу MongoDB AI Application Program (MAAP).
Компания планирует создать глобальную экосистему партнёров, которые будут устанавливать отраслевые стандарты для решений на основе ИИ, сотрудничая с Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, Anthropic и Fireworks AI.
Уже реализованы коммерческие решения для «французской автомобильной компании» и «глобального производителя бытовой техники».
iteuropa.com
Исследователи из Университета Джона Хопкинса представили RATIONALYST - модель на базе LLaMa-3-Instruct-8B, разработанную для улучшения логических возможностей LLM за счет неявных логических обоснований, полученных из немаркированных текстовых данных. Rationalyst генерирует и фильтрует обоснования на основе подсказок-примеров, фиксируя основные схемы рассуждения для новых текстов.
Обученный на 79 000 неявных обоснованиях, Rationalyst отслеживает пошаговые решения проблем, генерируя обоснования для каждого этапа, чтобы направлять выбор оптимальных следующих шагов. При оценке различных логических задач RATIONALYST добился повышения точности в среднем на 3,9%, превзойдя GPT-4.
arxiv.org | Github.com
Networking Pro A7 Elite - новый чип для маршрутизаторов и сетевых устройств. Чип основан на новом стандарте Wi-Fi 7. A7 Elite может управлять до 16 потоками данных, это вдвое больше возможности предыдущей версии стандарта. A7 Elite преобразует данные с помощью 4096-QAM, технологии, которая кодирует на 20% больше информации в каждом импульсе по сравнению с методом в Wi-Fi 6.
Другая новая функция, MLO, позволяет маршрутизатору Wi-Fi 7 распределять соединение по нескольким радиочастотным диапазонам. Qualcomm утверждает, что маршрутизаторы, оснащенные A7 Elite, могут обеспечить пропускную способность до 33 ГБ\с.
A7 Elite интегрирован с сопроцессором ИИ, который имеет максимальную производительность 40 TOPS. Этот сопроцессор позволяет устройствам Wi-Fi, оснащенным A7 Elite, запускать модели ИИ локально. Qualcomm предлагает библиотеку из 100 предварительно оптимизированных моделей ИИ, чтобы упростить разработку программного обеспечения для производителей сетевого оборудования.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
Forwarded from Machinelearning
Adobe представила Firefly, обновленную генеративную платформу, которая позволяет создавать видеоролики длительностью до 5 секунд с помощью текстовых или графических подсказок.
Firefly может создавать анимационный и фотореалистичный контент, а веб-приложение Firefly включает в себя настройки для управления движением камеры, углом обзора и размером кадра.
В бета-версии Premiere Pro доступна функция Generative Extend от Firefly, которая продлевает видеоклипы до двух секунд, генерируя дополнительный кадр в сцене, продолжая движение камеры и объекта, а также расширяя фоновый звук.
techcrunch.com
В Пекине выдали первую коммерческую лицензию роботу со встроенным искусственным интеллектом для работы в сфере общественного питания.
Новый тип робота, в отличие от традиционных роботов, выполняющих одну задачу, может готовить различные блюда, адаптироваться к рабочей среде и создавать новые меню благодаря своей способности к непрерывному обучению.
Ожидается, что к концу года использование роботов расширится до сетей ресторанов, где они будут готовить все - от мороженого до салатов.
fanabc.com
С 2025 года на Уимблдонском турнире, старейшем теннисном турнире Большого шлема, будет использоваться технология ИИ для определения попадания мяча в корт, заменяя 300 судей на линии.
Английский клуб лаун-тенниса и крокета, организатор турнира, заявил, что эта технология прошла испытания в 2024 году и позволит минимизировать ошибки судейства, обеспечивая максимальную точность.
Французский турнир Большого шлема остается единственным, где до сих пор не используются электронные системы определения аута.
timesnownews.com
IBM представила Qiskit Code Assistant, инструмент для упрощения и оптимизации процесса написания кода. Qiskit предлагает функции генерации кода на основе запросов на естественном языке, очистки чернового кода и практического обучения.
Инструмент интегрируется Visual Studio Code и JupyterLab, и его производительность оценивается с помощью бенчмарка Qiskit HumanEval. IBM планирует сделать ключевые компоненты Qiskit Code Assistant, включая модель Qiskit Granite и набор данных HumanEval, общедоступными.
thequantuminsider.com
Модели учитывают факторы: как возраст конструкции, осадки, температура и интенсивность движения. Исследователи выявили, что эти факторы являются основными причинами разрушения непрерывно армированных бетонных покрытий.
Результаты исследования показывают, что модели машинного обучения могут эффективно прогнозировать разрушение бетона, предоставляя инженерам время для принятия мер по предотвращению разрушения.
techxplore.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Forwarded from Machinelearning
Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека.
Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами.
Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio.
С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач.
reuters.com
Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность.
XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ.
Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ.
Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах.
electropages.com
Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму.
Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ.
gagadget.com
ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux.
Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI.
Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов.
ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2👍1
Forwarded from Machinelearning
Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.
SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.
Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".
Ключевые особенности метода:
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.
SageAttention реализован с использованием
Triton
и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.
⚠️ Использование SageAttention рекомендуется с версиями:
⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.
# Install sageattention
pip install sageattention
# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)
# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F
F.scaled_dot_product_attention = sageattn
# Specifically
cd example
python sageattn_cogvideo.py
@ai_machinelearning_big_data
#AI #ML #SageAttention #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥3
Forwarded from Machinelearning
Эксперты Andreessen Horowitz ожидают рост спроса на ядерную энергию для обеспечения растущих потребностей центров обработки данных искусственного интеллекта. Появятся новые профессии, требующие навыков в области аппаратного и программного обеспечения, робототехники и автоматизации.
XR-устройства получат развитие как инструменты для разработчиков, создающих приложения для реального мира. В сфере здравоохранения ИИ будет использоваться для демократизации доступа к медицинской информации и решения кадрового кризиса. Ожидается рост популярности периферийного ИИ и создание крупных вычислительных центров для обучения и развертывания моделей ИИ.
a16z.com
Китайский интернет-гигант Baidu совместно с партийным приложением Xuexi разработал инструмент на основе искусственного интеллекта, который помогает чиновникам создавать политически корректные документы. Xuexi – это приложение, посвященное жизни и идеям Си Цзиньпина.
Новый инструмент проверяет документы на соответствие идеям Си Цзиньпина и гарантирует, что ссылки на его высказывания взяты из проверенных источников. Инструмент также может использоваться для создания документов с цитированием государственной статистики и политики.
theregister.com
Алексис Конно, один из разработчиков Advanced Voice Mode для ChatGPT, основал стартап WaveForm, который занимается созданием системы AI-аудио, способной улавливать больше нюансов речи, чем существующие технологии. WaveForm, получивший начальное финансирование в размере 40 млн. долл. от Andreessen Horowitz, стремится создать систему, которая пройдет "речевой тест Тьюринга", то есть сможет имитировать человеческую речь настолько точно, что пользователи не смогут отличить ее от живого собеседника. В настоящее время WaveForm, состоящий из 5 сотрудников, находится на стадии разработки своих моделей.
axios.com
Ultralytics YOLO11, модель, предназначенная для обнаружения объектов, была скомпрометирована в результате атаки на цепочку поставок. Вредоносный код, внедренный в версии 8.3.41 и 8.3.42, устанавливал криптомайнер на устройства пользователей, скачавших библиотеку с через Python Package Index (PyPI). Ultralytics, используемая в популярных проектах SwarmUI и ComfyUI, загружалась более 260 000 раз за сутки. Вредоносный код запускал майнер XMRig, подключающийся к пулу "connect.consrensys[.]com:8080".
Разработчики Ultralytics удалили скомпрометированные версии и выпустили обновление 8.3.43, устраняющее уязвимость. Расследование показало, что атака, возможно, была осуществлена через два вредоносных запроса на внесение изменений в код от пользователя из Гонконга. В настоящее время проводится полный аудит безопасности для предотвращения подобных инцидентов в будущем.
bleepingcomputer.com
Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.
Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤2
Forwarded from Machinelearning
GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.
GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.
Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com
SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.
SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org
X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.
Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.
Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org
Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.
В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.
Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Мощная архитектура yf 14 млрд параметров
Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.
Модель поддерживает:
- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.
Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:
- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт
Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.
Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.
Как работает:
▪Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
▪Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
▪Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
▪Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.
Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.
Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.
@ai_machinelearning_big_data
#TexttoVideo #ai #ml #video #wanai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1👎1
Forwarded from Machinelearning
Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.
Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com
Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.
Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com
Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.
Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest
Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.
Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.
Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github
Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4🥰2