Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.
Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.
Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.
Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.
Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.
Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Tokenizer #Cosmos
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46❤14👍4⚡1🥰1
Mistral AI выпустила новый API для модерации контента, который позволяет пользователям выявлять нежелательный текст по нескольким критериям. Этот API, используемый в сервисе Le Chat, классифицирует текст по 9 категориям и доступен в двух вариантах: для обычного текста и для диалогов.
Модель, лежащая в основе API, обучена на 11 языках, включая русский, и учитывает контекст беседы при классификации сообщений. Mistral AI стремится обеспечить безопасность использования ИИ и считает, что системные меры защиты имеют решающее значение для защиты пользователей.
mistral.ai
В Университете Стэнфорда изучили эффективность пошаговых рассуждений в LLM, протестировав гипотезу о том, что рассуждения эффективны, когда обучающие данные состоят из локальных кластеров переменных, которые сильно влияют друг на друга. Эта кластерная структура позволяет моделировать связи между переменными, которые не встречались вместе в процессе обучения.
Для проверки этой гипотезы авторы обучали трнасформерные модели с нуля на синтетических данных с различной структурой. Данные были сгенерированы из байесовских сетей, но в каждой выборке присутствовала только часть переменных, создавая локальную структуру.
Результаты показали, что генерация промежуточных переменных (т.е. пошаговое рассуждение) значительно улучшает способность моделей правильно оценивать условные вероятности для пар переменных, которые не наблюдались вместе в процессе обучения.
arxiv.org
Компания Nous Research, известная разработкой «персонализированных и неограниченных» моделей ИИ, представила свой первый чат-бот Nous Chat. Веб-сервис предоставляет доступ Hermes 3-70B, основанной на Llama 3.1. Чат-бот отличается высокой скоростью работы и способностью предоставлять ссылки на источники в интернете, хотя иногда он выдумывает эти ссылки.
Несмотря на заявленную цель создания моделей ИИ без ограничений, Nous Chat все же имеет некоторые ограничения этического характера. Хотя Nous Chat пока не обладает многими дополнительными функциями, он может стать альтернативой другим чат-ботам, особенно если ограничения контента будут сняты в соответствии с заявленными целями Nous.
venturebeat.com
Andreessen Horowitz, несмотря на активное инвестирование в стартапы, работающие с ИИ, заметила снижение темпов улучшения возможностей моделей ИИ в последние годы.
Марк Андрессен, один из основателей фонда, отметил, что два года назад модель GPT-3.5 от OpenAI значительно опережала конкурентов. Однако сейчас существует 6 моделей с аналогичными возможностями, которые достигли потолка в развитии. Одним из основных препятствий для разработчиков ИИ является глобальная нехватка GPU.
Другой проблемой становится доступность обучающих данных, необходимых для обучения моделей ИИ. С апреля 2023 по апрель 2024 года доступ к 5% всех данных и 25% данных из самых качественных источников был ограничен из-за ужесточения правил использования текстов, изображений и видео для обучения ИИ. В результате крупные лаборатории ИИ нанимают тысячи специалистов для создания обучающих данных вручную.
observer.com
Microsoft добавила поддержку чат-ботов с ИИ в nightly-ветку Windows Terminal. Версия доступна для скачивания только на странице проекта на GitHub в разделе «Установка Windows Terminal Canary».
После установки Windows Terminal Canary необходимо включить поддержку «Terminal Chat» в меню, а затем добавить ключ API от OpenAI, GitHub или Azure.
Идея интеграции заключается в том, чтобы не покидая среды терминала использовать ChatGPT, например, как создать папку в PowerShell.
pcworld.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤8🔥3
AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.
AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.
Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.
Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).
MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.
AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.
Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.
⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)
# Baseline
bash run_sample_video.sh configs/sample.py
# AdaCache
bash run_sample_video.sh configs/sample_adacache.py
# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py
@ai_machinelearning_big_data
#AI #ML #DiT #AdaCache #Text2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤5🔥4
Обновленный Bixby, дебютировавший на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способен понимать сложные инструкции, извлекать информацию с экрана, например, из карт или фотографий, а также запоминать контекст предыдущих разговоров.
В демонстрации Samsung Bixby смог дать рекомендации по одежде, основываясь на текущей погоде, и пошагово объяснил, как добавить водяной знак на изображение. Bixby поддерживает голосовой и текстовый ввод, его можно вызвать из любого приложения или экрана. Ожидается, что обновленный ассистент станет доступен на международном рынке с выходом One UI 7 в начале следующего года.
techradar.com
На аукционе Sotheby's в Нью-Йорке картина "AI God: Портрет Алана Тьюринга", созданная роботом-художником Ai-Da, была продана за 1,08 млн. долларов. Робот Ai-Da, оснащенный искусственным интеллектом и роботизированными руками, использует большие языковые модели для общения.
Ai-Da создал портрет Тьюринга, используя камеры в своих "глазах" для анализа фотографии ученого и создания эскизов. Робот нарисовал 15 отдельных частей лица Тьюринга, которые затем были объединены в единое изображение и напечатаны на большом холсте с помощью 3D-принтера.
cnn.com
Тайваньская компания сообщила своим китайским клиентам о прекращении поставок передовых чипов для ИИ, произведенных по технологии 7 нанометров и меньше. Это решение связано с ужесточением контроля со стороны США за доступом Китая к передовым технологиям.
TSMC будет требовать одобрения Вашингтона для любых будущих поставок чипов в Китай. По словам источников, данный шаг не окажет существенного влияния на выручку TSMC. Компания подчеркнула, что соблюдает все применимые правила и экспортный контроль. Ранее сообщалось, что чипы TSMC были обнаружены в продукции Huawei, находящейся под экспортными ограничениями США.
businessinsider.com
Федеральный суд Южного округа Нью-Йорка отклонил иск, поданный изданиями Raw Story и AlterNet против компании OpenAI. Истцы обвиняли OpenAI в нарушении Закона об авторском праве в цифровую эпоху (DMCA), утверждая, что компания намеренно удаляла информацию об авторских правах: названия статей и имена авторов, из материалов, использованных для обучения ChatGPT.
Судья Коллин Макмахон поддержала ходатайство OpenAI о прекращении дела, указав, что истцы не доказали фактического ущерба своим предприятиям в результате удаления информации об авторских правах. Суд признал маловероятным, что ChatGPT будет воспроизводить материалы Raw Story и AlterNet дословно, учитывая огромный объем информации в его базе данных.
Судья Макмахон оставила возможность для подачи дополненной жалобы в будущем. Это решение может иметь значение для других аналогичных исков против OpenAI и других компаний, занимающихся генеративным ИИ.
gizmodo.com
Ссылка
Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели Google планирует расширить совместимость.
В анонсе на странице Google for Developers представлены примеры кода на Python, Typescript/Javascript и REST для взаимодействия с Gemini API. Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤7🔥4🤔2
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤6🔥3🤔1
Смещение распределения в графовых данных — это расхождение в распределении данных между обучающим и тестовым наборами, оно может существенно снизить производительность модели машинного обучения.
Репозиторий на Github, в котором собрана коллекция работ по обучению на графах в условиях смещения данных вне распределения (Out-of-Distribution, OOD) в трех основных сценария:
Обобщение OOD
предполагает, что целевые данные недоступны во время обучения модели, и фокусируется на повышении способности модели к обобщению, чтобы справляться с выборками из любых неизвестных доменов. Адаптация во время обучения
направлена на устранение расхождений в распределении между исходными и целевыми графовыми данными. Она служит для коррекции смещения наблюдений, переноса знаний между графами и смягчения негативных последствий аугментации данных. Адаптация во время тестирования
сосредоточена на настройке предварительно обученной модели на новые целевые данные, которые становятся доступными после начальной фазы обучения. Эта адаптация особенно важна в случаях, когда доступ к исходным данным ограничен. В каждом сценарии рассматриваются модельно-ориентированные и ориентированные на данные подходы.
@ai_machinelearning_big_data
#AI #ML #GNN #Giihub #AwesomeList
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥5
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍11❤5
GSCo (Generalist-Specialist Collaboration) - система, которая использует преимущества моделей общего назначения (GFM) и экспертных моделей для повышения точности анализа медицинских изображений.
Набор данных из 4901 фотографий заболеваний кожи 1653 пациентов, собранный в странах Африки к югу от Сахары.
Интерактивный бенчмарк для оценки способности LLM к сбору информации посредством дополнительных вопросов.
Базовая модель для сегментации мультимодальных нейроизображений с двухэтапным подходом к предварительному обучению.
Модель фокусируется на синдроме Элерса-Данлоса (СЭД) в качестве основной специализации.
LLM с AutoML для решения задач, связанных с выбором модели для последовательностей белков, графовых представлений, автоматической оптимизацией гиперпараметров и автоматическим поиском данных в базах данных белков.
Метод, использующий VLM для автоматического выявления и сравнения ошибок в разметке органов на КТ-изображениях.
Параметрически эффективный метод для насыщения LLM дополнительными медицинскими знаниями.
Medprompt использует цепочки рассуждений и ансамблирование, чтобы улучшить результаты инференса GPT-4 в медицинских задачах.
Чат-бот на базе WhatsApp, работающий по принципу «сопровождающий эксперт» с использованием LLM для поддержки пациентов, перенесших операцию по удалению катаракты.
Классификатор, предназначенный для автоматической маркировки рентгенограмм грудной клетки (CXR) с использованием LLM.
Система, объединяющая носимые устройства и голосовые помощники на базе LLMs для мониторинга симптомов в амбулаторных условиях
Система оценки навыков LLM в формулировке медицинских вопросов во время диалога с пациентом.
Возможности и проблемы, связанные с разработкой роботов для здравоохранения, оснащенных LLM. Спойлер -
Ожидалось, что доменно-адаптивное дообучение (DAPT) на медицинских текстах и изображениях позволит улучшить эффективность моделей в решении задач медицинской QA. Но есть нюанс.
Google Research исследовал эффективность системы ИИ для диалоговой диагностики в области лечения рака молочной железы без специальной тонкой настройки моделей.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍13🔥4🗿1
Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.
Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.
В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.
Настройка
Глава 2: Работа с текстовыми данными
Глава 3: Код механизмов внимания
Глава 4: Реализация модели GPT с нуля
Глава 5: Предварительное обучение на немаркированных данных
Глава 6: Тонкая настройка для классификации
Глава 7: Тонкая настройка для следования инструкциям
@ai_machinelearning_big_data
#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥20❤11🥰2👏1
AlphaFold 3 — конвейер логического вывода системы ИИ, разработанной Google DeepMind, которая произвела революцию в области прогнозирования структуры белков.
Пакет AlphaFold 3 включает в себя все необходимое для теоретического моделирования структуры белка. Для запуска системы необходимо сконфигурировать входной файл JSON, содержащий информацию о белке, например, его идентификатор и аминокислотную последовательность.
Вместе с программным конвейером инференса доступна подробная документация по входным и выходным данным системы, решению известных проблем, настройкам производительности и установке с последующим запуском с помощью Docker.
Для локального использования понадобится ОС Linux (AlphaFold 3 не поддерживает другие операционные системы) примерно 1 ТB дискового пространства для хранения генетических баз данных (рекомендуется SSD), 64 GB RAM, GPU NVIDIA с Compute Capability 8.0 или выше.
Исходные данные, содержащие 5120 токенов, могут поместиться на одном NVIDIA A100 80 ГБ или одном NVIDIA H100 80 ГБ.
⚠️ Получение параметров модели возможно через подачу заявки в Google DeepMind, доступ предоставляется в течении 2-3 дней по итогам рассмотрения обращения.
⚠️ Любая публикация, основанная на результатах, полученных с использованием AlphaFold 3, должна ссылаться на статью «Accurate structure prediction of biomolecular interactions with AlphaFold 3».
⚠️ AlphaFold 3 не является официально поддерживаемым продуктом Google и ее результаты не предназначены, не проверены и не одобрены для клинического использования.
@ai_machinelearning_big_data
#AI #ML #DeepMind #AlfaFold3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤28👍7🔥7🗿1
Qwen2.5-Coder - это семейство из 6 LLM : 0,5, 1,5, 3, 7, 14, 32 млрд. параметров, ориентированное на понимание и написание кода на 40 языках программирования.
По сравнению с предыдущим поколением моделей CodeQwen1.5, в Qwen2.5-Coder значительно улучшена генерация, обоснование и исправление кода. При этом сохранились сильные навыки в математике и общих компетенциях.
Семейство основано на Qwen 2.5, количество обучающих лексем было увеличено до 5,5 трлн, в корпус данных вошли исходный код, текстовые кодовые основания, синтетические данные и т. д.
Способности в области программирования старшей модели, Qwen2.5-Coder-32B соответствуют уровню GPT-4o.
Модели
0.5В
, 1.5B
и 3В
получили контекст в 32 тыс. токенов, а 7В
, 14В
и 32B
- 128 тыс. токенов.В открытый доступ на HuggingFace опубликованы 36 моделей семейства: базовые модели, instruct-версии и
GGUF
, AWQ
, GPTQ-Int8
, GPTQ-Int4
форматы инструктивных версий.⚠️ В ближайшее время (сроки не указаны), разработчики Qwen-Coder планируют запустить сервис real-time кода на сайте Tongyi . Сервис будет поддерживать генерацию веб-сайтов, создание мини-игр и диаграмм данных одним щелчком мыши.
@ai_machinelearning_big_data
#AI #ML #LLM #QwenCoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥15❤7😁1🗿1