Neurohive - Нейронные сети, AI, ML, DL
4.5K subscribers
233 photos
41 videos
1.4K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма, числа или графика.

Для работы с библиотекой необходимо указать ключ OpenAI API или Google PaLM. Языковая модель автоматически распознает контекст по названию полей используемых датафреймов, а при использовании нескольких датафреймов сама определяет ключи их соединения.

#Development
This media is not supported in your browser
VIEW IN TELEGRAM
Audiocraft — это открытая PyTorch-библиотека для генерации музыки и звуков по текстовой подсказке. Разработчики предоставили код двух state-of-the-art моделей: MusicGen и AudioGen. Обновленная версия кодека Encodec обеспечивает еще более высокое качество генерации музыки с минимальным количеством артефактов. Audiocraft открывает новые перспективы в области создания аудио-контента, способного удовлетворить самые взыскательные потребности.

Важно подчеркнуть, что Audiocraft — это не только библиотека моделей. Авторы активно поддерживают открытый код, предоставили веса моделей и обучающий код, чтобы подпитать исследотелей и разработчиков в области генерации аудио.

#Development #StateoftheArt
Американский стартап Arthur опубликовал в открытом доступе фреймворк Bench для оценки и сравнения производительности больших языковых моделей. Инструмент позволит пользователям выбрать языковую модель, наиболее подходящую для решения конкретной задачи, укажет эффективный способ составления запросов к ней и подберет оптимальный режим обучения.

Поскольку фреймворк имеет открытый исходный код, пользователи могут добавлять собственные метрики в соответствии со своими потребностями. Arthur также объявил о хакатоне с Amazon Web Services и Cohere, чтобы мотивировать разработчиков создавать новые метрики для Bench.

#Development
⚡️ OpenAI открыла возможность дообучать модель GPT-3.5 Turbo для конкретных задач, что позволит разработчикам максимально раскрыть потенциал модели. Тонкая настройка (finetuning) позволит разработчикам совершенствовать производительность и точность вывода модели в своих сферах применения. Первые тесты показывают, что дообученная GPT-3.5 Turbo соответствует или превосходит базовые метрики GPT-4 при решении конкретных задач.

Тонкая настройка повышает способность модели последовательно форматировать ответы — важный аспект для приложений, требующих определенного формата вывода: завершение кода, составление вызовов API или преобразования запросов пользователей в формат JSON. При составлении маркетинговых материалов модель сможет обучиться придерживаться форматирования текста и tone of voice, присущих бренду.

#Development
This media is not supported in your browser
VIEW IN TELEGRAM
🧑‍💻 Code Llama: что умеет и как использовать state-of-the-art в написании кода

Open source модель Code Llama — это дообученная Llama 2 для написания, завершения и исправления кода. Code Llama ускоряет написание кода, снижает порог входа для начинающих разработчиков и упрощает написание документации к коду. Модель поддерживает языки Python, C++, Java, PHP, Typescript (Javascript), C#, Bash и другие.

Исследователи опубликовали модели с 7, 13 и 34 миллиардами параметров. Кроме того, разработчики выложили еще две дообученные модели: Code Llama Python для работы с Pytorch и
Code Llama Instruct, обученную объяснять и выдавать подсказки при написании кода.

Есть несколько способов уже сейчас начать использовать модель:
1. Запросить доступ на официальном сайте, где можно скачать модель и веса;
2. Запустить демо модели 13B и 13B Instruct на HuggingFace;
3. В режиме чат-бота испытать версию 34B на сайте PerplexityAI;
4. С помощью расширения "Continue" для VS Code вы можете использовать Code Llama в качестве альтернативы GPT-4, как на локальной машине с Ollama или TogetherAI, так и через Replicate.

#Stateoftheart #Development
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft представила AutoGen, open-source библиотеку для создания и настройки LLM-агентов – отдельных сеансов больших языковых моделей, которые могут взаимодействовать друг с другом для совместного решения задач.

Например, одному агенту можно поручить действовать в качестве программиста, пишущего код на основе текстового запроса. Второй агент выполняет роль ревьюера, который указывает на ошибки в коде. После обмена несколькими сообщениями агенты отдают пользователю финальный код. Такой совместный подход может привести к значительному повышению эффективности работы генеративных моделей – по данным Microsoft, AutoGen может ускорить написание кода в четыре раза.

#Development
NVIDIA представила Eureka – агента на базе GPT-4 c открытым исходным кодом, обучающего роботов сложным навыкам, таким как выполнение трюков и работу с ножницами. Eureka формирует сводную информацию о ключевых статистических данных по результатам обучения и инструктирует языковую модель улучшить функции вознаграждения.

Eureka более чем на 80% превосходит написанные экспертами алгоритмы. В частности, с помощью агента в NVIDIA впервые обучили робота с пятью пальцами жонглировать ручкой.

#Development
На Хабре вышла статья от разработчика YandexGPT об эффективных методах ускорения LLM. Автор исследует задачу ускорения инференса больших языковых моделей, рассказывает про влияние внутреннего устройства GPU на время работы модели и демонстрирует, как дистилляция, квантизация и другие методы влияют на баланс скорости и качества.

В материале наглядно показывается, с какими сложностями сталкиваются команды при внедрении LLM-ок в реальные продукты. Разработчик поделился и экспериментами внутри Яндекса: например, с помощью замеров выяснилось, что, несмотря на меньшую скорость, О1-версия метода SmoothQuant — самая качественная и единственная способна квантизовать без потерь. В остальных версиях потери существенные.

#Development
Python Tutorials for Digital Humanities рассказал, как можно распознавать широкую номенклатуру именованных сущностей (NER) без обучающей выборки с помощью библиотеки gliner-spacy. На видео пошагово рассказывается, как работать с репозиторием gliner-spacy, как интегрировать его в NLP-среду SpaCy, как получить первые результаты. Перевод подготовила Бюро переводов и школа переводчиков «Альянс ПРО».

Для удобства к ролику прилагается код на Python в блокноте Google Colab.

#Development
Media is too big
VIEW IN TELEGRAM
Хеш-таблицы в Python - как оглавление книги, только для ваших данных; они помогают быстро находить нужные значения в списке.

Доктор Майк Паунд подробно объясняет и показывает работу хеш-таблиц на примере кода:
1. Хеш-сеты и хеш-таблицы - что это такое и для чего нужны;
2. Коллизии, или что происходит, когда разные ключи преобразуются в один и тот же индекс;
3. Быстрый поиск значений благодаря хеш-функции делает хеш-таблицы эффективными для решения задач, где требуется частое обращение к данным по определённому ключу;
4. Реализация хеш-таблиц на Python и приводит примеры их использования.

Перевод подготовила Бюро переводов и школа переводчиков «Альянс ПРО».

#Development
State-of-the-art в обучении LLM: Яндекс выложил в опенсорс свою библиотеку YaFSDP, которая до 25% ускоряет обучение больших языковых моделей.

YaFSDP – библиотека, позволяющая ускорить обучение языковых моделей как собственной разработки, так и сторонних, с открытым с исходным кодом. С её помощью можно расходовать до 20% меньше ресурсов графических процессоров, которые требуются для обучения, так как она оптимизирует использование ресурсов GPU на всех этапах обучения.

Изначально YaFSDP разрабатывали в процессе обучения генеративной модели YandexGPT 3, а теперь библиотекой могут воспользоваться все желающие компании, разработчики и исследователи.

#Development
Компания King, разработчик Candy Crush Saga, активно внедряет ИИ в процесс разработки и оптимизации игры. Сахар Асади из AI Labs Activision Blizzard King (ABK) рассказала, как им удалось уcкорить разработку уровней на 50% с помощью ИИ.

В 2022 году Activizion Blizzard поглотила ИИ-стартап Peltarion, сотрудники которого перешли в ABK, где заняли ключевые позиции. Результатом их работы стало сокращение количества ручных исправлений при разработке уровней на 95%.

ИИ, созданный компанией King, не пытается победить людей, как AlphaZero, а стремится их имитировать. «Допустим, вы находитесь на втором или третьем ходу: бот смотрит на доску, оценивает возможные действия, которые вы можете предпринять, и затем выбирает лучший вариант. И 'лучший' в данном случае — это тот, который с наибольшей вероятностью выбрал бы человек.»

Человеческие дизайнеры оценивают качество созданных ботом уровней. «В конечном итоге именно левел-дизайнеры знают, что является увлекательным для игроков и что они хотят получить от игрового процесса».

Фото: The Gradient

#AIapps #Development
Под капотом Нейро: от LLM к VLM. Недавно Яндекс обновил свою поисковую систему Нейро, интегрировав в неё передовую VLM для улучшения работы с визуальным контентом.

В своей публикации на Хабре ML-инженер из Яндекса подробно рассказывает о принципах работы визуально-текстовых мультимодальных моделей. Он описывает архитектуру VLM и объясняет процесс обучения, который включает предобучение на миллионах семплов и тонкую настройку.

В статье сравнивается работа предыдущей версии Нейро на базе LLM и функционирование новой системы с VLM. Это наглядно демонстрирует, почему новая версия эффективнее справляется с анализом изображений и связанных с ними запросов.

Интересный факт: Яндекс использует билингвальную модель, способную отвечать на русском и английском языках, что позволяет проводить тесты на англоязычных бенчмарках и проводить SbS-сравнения на русском языке.

#AIapps #Development
ReMax — метод обучения с подкреплением

Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров.

Авторы метода предлагают ReMax как альтернативу популярному алгоритму Proximal Policy Optimization (PPO). NLP-разработчики разобрали метод, по их мнению, он действительно может стать заменой PPO для RLHF-задач, существенно снижая вычислительные затраты и повышая эффективность обучения LLM.

#NLP #Development
This media is not supported in your browser
VIEW IN TELEGRAM
Mochi 1 - открытая модель генерации видео с 10 миллиардами параметров от Genmo Ai. Mochi 1 поддерживает только текст-в-видео и генерирует видео с частотой 30 fps длительностью до 5,4 секунд.

Разработчики Genmo AI фокусировались на качестве движений камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face, Github, а также в веб-приложении.

Модель основана на архитектуре Asymmetric Diffusion Transformer. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну T5-XXL. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что на выходе дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Модель требует как минимум 4 GPU H100.

#Development #AIapps
This media is not supported in your browser
VIEW IN TELEGRAM
DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста. SynthID уже доступен в библиотеке Hugging Face Transformers v4.46.0+. Этот релиз дополняет ранее выпущенные инструменты DeepMind для маркировки изображений, аудио и видео, созданных ИИ.

SynthID модифицирует процесс генерации токенов с помощью псевдослучайной g-функции. Когда LLM генерирует текст, она предсказывает каждый следующий токен на основе распределения вероятностей. SynthID корректирует эти вероятности, используя настраиваемые параметры, которые балансируют силу водяного знака и качество результата.

Метод был интегрирован в модель Google Gemini и протестирован на 20 миллионах ответах. Для обучения модели требуется всего несколько тысяч примеров, что делает ее практичной для внедрения в энтерпрайзы.

#Development
Яндекс вручил научную премию Yandex ML Prize в шестой раз — лауреатами стали 14 учёных с наиболее перспективными исследованиями в различных областях в сфере ML-технологий.

Ежегодная научно-образовательная премия, учреждённая в 2019 году для поддержки научного сообщества, получила в этом году 160 заявок в номинациях «Преподаватели ML», «Научные руководители», «Молодые научные руководители».

Премию получила команда учёных под руководством Артема Лыкова за разработку универсальной когнитивной системы для разных типов роботов и создание робота-собаки, понимающей человеческую речь.

А в номинации «Молодые научные руководители» в числе победителей был Александр Коротин, под руководством которого разрабатываются новые методы обучения генеративных моделей на основе теории оптимального транспорта.

#Development
DeepLearning.AI представил бесплатный видеокурс Building an AI-Powered Game длиной 1 час. Преподаватели Ники Биркнер из Together AI и Ник Уолтон, сооснователь Latitude & AI Dungeon, покажут, как примененять LLM в разработке игр на реальных примерах.

На курсе вы узнаете, как:
1. применять промт-инжениринг для создания игрового мира с процендурно-генерируемым контентом;
2. создавать игровой прототип, включающий core-механику пользовательский интерфейс, систему загрузки игрового мира;
3. гарантировать безопасную игровую среду, используя Llama Guard и настраиваемые политики контента;
4. добавлять сюжетные элементы и компоненты игрового мира с помощью моделей ИИ.

Курс предназначен для разработчиков начального уровня подготовки и выше.

#Development
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.

В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.

Исходный код и предобученные модели доступны под лицензией Apache 2.0.

#StateoftheArt #Development
На CES 2025 Nvidia представила микросервисы NIM для локального запуска ИИ-пайплайнов и новую серию RTX 50.

GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.

Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs, Meta и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.

Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.

Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.

#Development