Machinelearning

⚡️ MobileLLM: набор SLM от Facebookresearch.

MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.

В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов

MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.

В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:

🟢

MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;

🟢

MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;

🟢

MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;

🟢

MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;

▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.

▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.

📌Лицензирование: CC-BY-NC-4.0 License.

🟡

Коллекция моделей на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #MobileLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤7🔥3🎉3

9.2K views15:01

Machinelearning

Яндекс объявил победителей премии Yandex ML Prize

В этом году награды за выдающиеся достижения в машинном обучении получили 14 учёных. Премия поддерживает исследователей и преподавателей в области ИИ и мотивирует их продолжать научную деятельность.

Среди лауреатов:

🟢 Артём Лыков, аспирант Сколтеха. Он и его команда первая в мире создала универсальную когнитивную систему для роботов и представила робота-собаку, который понимает человеческую речь. Это может стать основой для «роя умных роботов», способных автономно выполнять задачи в строительстве, геологоразведке и астрофизике.

🟢 Алексей Скрынник, старший научный сотрудник в AIRI. Он разработал алгоритмы для роботов и техники, которые смогут выполнять задачи, даже при отключении связи. Это может изменить подход к логистике и повысить эффективность автономных систем.

🟢 Александр Коротин, руководитель группы по генеративному ИИ в Центре прикладного ИИ Сколтеха. Он разрабатывает методы генеративного обучения на основе теории оптимального транспорта, что поможет в проектировании самолётов, кораблей и разработке лекарств.

Помимо премии, лауреаты получат доступ к сервисам Яндекса 360 и грант на использование Yandex Cloud для выполнения объёмных вычислений и обработки данных.

@ai_machinelearning_big_data

#AI #ML #YandexMLPrize

👏36👍15🥱8❤4🔥2

8.36K views16:23

Machinelearning

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft.

OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.

Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.

OmniParser состоит из двух моделей:

🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.

🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.

OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).

⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.

На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.

▶️Локальная установка и запуск в Gradio UI :

# Create conda env
conda create -n "omni" python==3.12
conda activate omni

# Install requirement
pip install -r requirement.txt

# Run Gradio UI
python gradio_demo.py
📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤18🔥6🎉4

10.6K views17:35

Machinelearning

✔️

ORCA Computing представила квантовую систему PT-2.

PT-2 - новейшая система фотонных квантовых систем. Она создана на основе PT-1, которая была успешно развёрнута в 7 локальных средах, и предназначена для коммерческих решений, интегрируемых с высокопроизводительными вычислительными инфраструктурами.

PT-2 обладает улучшенными квантовыми возможностями машинного обучения, согласованными с платформой разработки NVIDIA CUDA-Q, что позволяет интегрироваться с моделями генеративного ИИ. Эта разработка поможет организациям более эффективно внедрять квантовые вычисления в свои рабочие процессы ИИ.
techerati.com

✔️ GitHub выпустили свой ежегодный отчет об индустрии опенсорса.
— В связи с развитием ИИ-ассистентов разработчики активно переходят с JavaScript на Python;
— За 2024 год команды внесли 5,2 миллиарда изменений в 518 миллионов проектов;
— Ожидается, что к 2028 году Индия превзойдет США по числу разработчиков;
— Благодаря доминированию Python использование Jupyter Notebooks увеличилось почти вдвое (+92%).
github.blog/news-insights/

✔️

Google запускает новую функцию поиска в интернете для Gemini API и Google AI Studio.

Google представил функцию "Grounding with Google Search" для Gemini API и Google AI Studio, позволяющую разработчикам получать более точные и актуальные ответы от моделей Gemini, опираясь на данные поиска Google.

Эта функция уменьшает вероятность галлюцинаций и обеспечивает доступ к информации в режиме реального времени, делая приложения ИИ более релевантными. "Grounding" предоставляет ссылки на источники информации и направляет пользователей к соответствующим результатам поиска.

Функция доступна для платных тарифов в Google AI Studio и в API. используя платный уровень.
developers.googleblog.com

✔️

Claude теперь доступен в виде десктопного приложения.

Anthropic выпустила десктопное приложение Claude для Mac и Windows. Приложение практически не отличается от веб-версии и позволяет задавать вопросы, просматривать предыдущие чаты и избранные беседы.

Преимуществом является более удобный доступ к Claude прямо с рабочего стола, без необходимости открывать веб-сайт. Функция “computer use”, позволяющая Claude 3.5 Sonnet управлять компьютером, пока недоступна в приложении.

Anthropic также добавила поддержку диктовки в мобильные приложения Claude для Android и iOS.
theverge.com

✔️

Nvidia потребуется одобрение ЕС для покупки стартапа Run:ai.

Производителю чипов потребуется получить одобрение антимонопольных органов ЕС для приобретения стартапа в области ИИ Run:ai, поскольку сделка может угрожать конкуренции на рынках, где работают обе компании.

Nvidia объявила о покупке израильской компании Run:ai в апреле, сумма сделки составит около 700 миллионов долларов. Хотя сделка не достигает порога оборота ЕС, требующего запроса одобрения, она была направлена в итальянское антимонопольное ведомство, которое, в свою очередь, обратилось в Еврокомиссию.

Технология Run:ai позволяет разработчикам управлять и оптимизировать свою инфраструктуру ИИ.
reuters.com

✔️

Международная группа ученых разрабатывает методы мониторинга безопасности аккумуляторов с помощью ML.

Учёные из Технического университета Дармштадта (Германия) и MIT (США) разработали новые методы анализа безопасности литий-ионных аккумуляторов, используемых в электромобилях и системах хранения энергии.

Метод, сочетающий физические техники с машинным обучением, позволяет обнаруживать зависящие от времени и эксплуатационные изменения в аккумуляторных элементах. Для исследования учёные использовали уникальный набор данных, предоставленный анонимным партнёром: данные 28 аккумуляторных систем, возвращённых производителю из-за проблем. Набор данных включает более 133 миллионов строк данных из 224 аккумуляторных элементов и является одним из первых подобных, ставших общедоступными.

Результаты исследований подтверждают, что часто только одна ячейка в аккумуляторной системе демонстрирует аномальное поведение, которое может повлиять на всю систему.
batteriesnews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍6🔥3😁1

8.08K viewsedited 06:35

Machinelearning

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка.

InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику.

InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст.

Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами.

Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов.

Уникальный этап в обучении модели - "ink tokenizer", преобразующий точки в формат, удобный для обработки LLM.

Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:

🟠

Small-i - 340M (ViT B/16 + mT5-base), обучена на датасете JFT-300M;

🟢

Small-p - 340М (ViT B/16 + mT5-base), обучена на датасете ImageNet-21k;

🟠

Large-i - 1B (ViT L/16 + mT5-large), обучена на датасете JFT-300M.

Все модели используют контекст длиной 1024 для инференса и 128 для ввода.

Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.

Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.

⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.

▶️Локальный запуск клонированием InkSight Demo HF :

# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground

# Install the dependencies (skip if you have them already)
pip install gradio gdown

# Run the Gradio Playground
python app.py

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #InkSight #GoogleResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤11🔥8🐳2😁1

10.6K views13:28

Machinelearning

✔️

Китайские военные используют ИИ-модель Llama для создания военного ИИ.

В исследовательской статье, опубликованной в июне, 6 китайских ученых из 3 учреждений, связанных с Академией военных наук (AMS) НОАК, описали процесс адаптации версии Llama для создания ChatBIT.

Инструмент был разработан с использованием модели Llama-13B и дополнительных параметров для сбора и обработки разведданных, а также предоставления информации для принятия оперативных решений.

ChatBIT был настроен для «диалога и ответов на вопросы в военной области» и показал производительность, превосходящую некоторые другие модели ИИ, достигая уровня 90% возможностей ChatGPT-4 от OpenAI.

Официальные представители компании-разработчика Llama заявили, что любое использование ее моделей НОАК является несанкционированным и противоречит политике компании.
reuters.com

✔️

ИИ создаёт виртуальный мир Minecraft в режиме реального времени.

Компании Decart и Etched представили версию игры Minecraft, полностью сгенерированную ИИ, без написания кода. Модель Oasis обучалась на миллионах часов игрового процесса Minecraft, изучая физику, окружение и управление игрой.

Демонстрация, созданная с использованием метода предсказания следующего кадра, позволяет пользователям взаимодействовать с виртуальным миром в режиме реального времени, но имеет ограничения: низкое разрешение, кратковременные сеансы игры и "галлюцинации", когда элементы игрового мира внезапно меняются.

Компании планируют улучшить качество генерации с помощью нового чипа Sohu, который, как утверждается, увеличит производительность в 10 раз. В будущем разработчики видят потенциал технологии в создании виртуальных помощников и обучающих программ в режиме реального времени.
technologyreview.com

✔️

ИИ вытесняет фэшн-моделей из индустрии рекламы.

Бренд Mango, один из первых внедривших ИИ-моделей в свою рекламу, сообщил о рекордных доходах. Генеральный директор Mango Тони Руис отметил, что использование ИИ позволяет создавать контент быстрее. Компания планирует использовать виртуальных моделей для всех своих коллекций в будущем.

Согласно Bloomberg, Nike, Louis Vuitton и Levi Strauss & Co. также рассматривают возможность использования ИИ-аватаров. Стоимость их использования значительно ниже, чем оплата услуг реальной модели: $29 в месяц против $35 в час.
nypost.com

✔️

Компания Марка Цукерберга продолжит наполнять свои платформы сгенерированным ИИ контентом.

В ходе конференции с инвесторами, Цукерберг рассказал, что компания планирует добавить "совершенно новую категорию контента", которая будет сгенерирована, обобщена или скомпилирована ИИ. Он подчеркнул, что этот подход основан на успехе рекомендательных алгоритмов, которые уже сейчас продвигают в ленты пользователей контент от незнакомых им авторов.

По словам Марка, ИИ поможет создавать контент, который сделает ленты пользователей "более интересными и увлекательными". В то же время, его компания признает, что рост времени, проведенного пользователями на платформах, достигается за счет снижения качества контента и уменьшения человеческого взаимодействия.
404media.co

✔️

Использование LLM может ухудшить творческие способности человека.

В Университете Торонто исследовали влияние LLM на творческие способности человека. В ходе экспериментов участники выполняли задания на дивергентное и конвергентное мышление, используя GPT-4o для получения идей или структурированного руководства.

Результаты показали, что хотя LLM повышают производительность во время использования, в долгосрочной перспективе они снижают способность человека мыслить творчески самостоятельно. Участники, не использовавшие LLM, продемонстрировали лучшие результаты в тестовой фазе, выполняя задания без помощи модели.

Кроме того, исследование подтвердило, что использование LLM приводит к гомогенизации идей, то есть снижению их разнообразия.
techxplore.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39❤8😨6🍾5🔥4🤔2❤‍🔥1💘1

8.4K views07:10

Machinelearning

🌟 Saliency-Diversified Deep Ensembles: новый метод, позволяющий распознавать неизвестные объекты на фото с помощью ИИ.

Предыдущие разработки в области компьютерного зрения (CV) сопровождались проблемой однородности ансамблей, то есть схожесть их друг с другом снижала качество и разнообразие их оценок.

Для решения этой проблемы ученые из T-Bank AI Research разработали самый точный в мире метод SDDE, в котором используются карты внимания, фокусирующиеся на разных аспектах данных. Таким образом схожесть моделей уменьшается, а их общая точность – повышается, что приводит к более надежной и диверсифицированной идентификации объектов.

Значимость открытия заключается также в снижении рисков ошибок при обработке и анализе фото на 20%. Исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию. Благодаря такому подходу, модель стала успешнее обнаруживать ранее неизвестные ей объекты и точнее их идентифицировать.

Эффективность метода ученые оценивали в испытаниях на популярных базах данных: CIFAR10, CIFAR100 и ImageNet-1K. Метод SDDE продемонстрировал наилучшие результаты по сравнению со схожими алгоритмами, такими как Negative Correlation Learning и Adaptive Diversity Promoting.

Метод SDDE будет востребован в сферах, требующих высокой точности анализа, например, в медицинской диагностике и развитии беспилотного транспорта. Открытие ученых было признано мировым научным сообществом на Международной конференции по обработке изображений (IEEE ICIP) в Абу-Даби.

🟡Исследование

@ai_machinelearning_big_data

#news #ai #ml

👍35🔥17❤5👏1

9.03K views11:09

🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢

D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢

D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢

D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢

D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference 
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4