Neurohive - Нейронные сети, AI, ML, DL
4.68K subscribers
263 photos
52 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Gorilla: open source модель для вызова 1600+ сторонних API

Gorilla получает на вход запрос на естественном языке и находит семантически и синтаксически правильное API для вызова. С помощью Gorilla впервые продемонстрировано, как использовать LLMs для точного вызова более 1 600 API (их число постоянно растет).

Модель обученна на основе LLaMA и превосходит производительность GPT-4 в написании вызовов API. Gorilla генерирует корректные вызовы API для моделей машинного обучения без галлюцинаций, адаптируется к изменениям в документации и принимает во внимание ограничения API. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.

Для оценки возможностей модели авторы создали набор данных APIBench, который включает в себя API HuggingFace, TorchHub и TensorHub. Если хотите добавить свое API, просто создайте пул-реквест в репозитории и напишите авторам на электронную почту.

#StateoftheArt
🔥8👍2
NVIDIA разработала нейросеть Neuralangelo, генерирующую 3D-модели реальных объектов по нескольким двумерным фотографиям с различных ракурсов. Компания утверждает, что Neuralangelo значительно превосходит аналогичные модели и ускорит разработку в таких областях, как видеоигры, виртуальная реальность и робототехника.

Отличительной способностью нейросети является точное воспроизведение текстур сложных материалов, таких как черепица, стекло и мрамор. При этом для получения детализированного рендера в качестве входных данных будет достаточно видео, снятого на смартфон.

#StateoftheArt
🔥51👍1
Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic - датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.

Для создания датасета исследователи разработали веб-приложение на основе StableDiffusion 1.5 и SDXL beta генерирующее пару изображений по текстовой подсказке. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.

Датасет использовали для обучения функции оценки соответствия изображения введенному запросу. PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%.

#Dataset #StateoftheArt
🥰51
This media is not supported in your browser
VIEW IN TELEGRAM
Uncrop - инструмент для "дорисовывания" изображений на базе Stable Diffusion XL

Uncrop анализирует содержимое загруженного изображения и генерирует визуально правдоподобное представление того, что могло бы находиться вокруг.

Инструмент хорошо справляется с простыми по композиции изображениями и вполне может составить конкуренцию Generative Fill от Adobe, показывая сравнимые результаты и не требуя установки и покупки Photoshop.

Uncrop поможет:
- скорректировать кадрирование;
- адаптировать пропорции изображения для отображения на баннере;
- изменить размер и подстроить изображение под нужные размеры, не искажая и не утрачивая важных деталей.

#AppliedDS
👍42
ConPLex – языковая модель, обученная анализировать химические базы данных для поиска потенциальных лекарств-молекул, наилучшим образом взаимодействующих с определенным белком-мишенью. Модель позволяет исследовать более 100 миллионов соединений за сутки и, таким образом, значительно ускорить поиск новых лекарств.

ConPLex была проверена экспериментально на определенном классе белков: из 19 предсказанных моделью пар молекула-белок 12 обладало сильным сродством к связыванию. При этом оказалось, что 4 из 12 пар связываются с таким высоким сродством, которое обычно достигается в существующих лекарственных средствах.

#StateoftheArt
👍5🥰5🔥2🙉1
MusicGen: open source нейросеть для создания музыки в любых жанрах

MusicGen - нейросеть, создающая музыку по текстовому описанию. Помимо текста, на вход допускается референс мелодии, что дает более точный контроль над создаваемым выводом. Попробовать создать музыку можно в в демо-версии модели на Hugging face, полный код модели доступен в репозитории на Github.

Метод MusicGen основан на авторегрессивной модели декодирования на основе трансформера. Он использует квантованные единицы из аудио-токенизатора EnCodec для моделирования музыки. Для сжатия и представления параллельных потоков данных, используется метод векторного квантования с использованием нескольких обученных кодировщиков. Языковая модель оперирует несколькими потоками сжатого дискретного представления музыки в виде токенов. Отличительной особенностью MusicGen является использование интерлейсных паттернов токенов, что позволяет избежать необходимости каскадного соединения нескольких моделей, повышающих частоту дискретизации.

#StateoftheArt
👍51
Google представила Try-on – диффузионную модель, позволяющую пользователям сервиса «Покупки» примерить одежду на моделях с различным телосложением и оттенком кожи. Модель фотореалистично воспроизводит драпировку, облегание, растягивание и формирование складок ткани.

Функция уже доступна в США. Когда пользователь, просматривающий товар в поиске, нажимает кнопку примерки, он может выбрать модель с похожей формой тела и размером и посмотреть, подойдет ли он ему. Try-on позволяет точно воспроизвести, как одежда будет драпироваться, складываться, облегать, растягиваться и формировать складки на конкретных моделях. Представленные модели покрывают размеры от XXS до 4XL.

#Entertaining
🔥4👍3
#Entertaining

В последней песне The Beatles появится сгенерированный нейросетью Джон Леннон

Джон Леннон был застрелен в 1980 году, его голос был извлечен из старой демо записи, обработан и сделан "чистым", что позволило собрать и смикшировать трек.

Маккартни не раз заявлял, что мечтает записать еще хотя бы одну песню со своим другом Джоном Ленноном, нейросети сделали это мечту реальностью. Возникает вопрос: насколько использование генеративных моделей делает "настоящей" песню The Beatles? Мы узнаем об этом после выпуска песни, так как Маккартни не раскрыл деталей о самом треке.

Использование нейросетей для создания песен сейчас переживает важный момент. Песня "Not a Game", сгенерированная искусственным интеллектом с голосом Дрейка, стала вирусной и была запрещена на Spotify и других стриминговых сервисах по просьбе звукозаписывающих лейблов. Десятки тысяч других треков, имитирующих известных артистов, продолжают распространяться в социальных сетях.
2👏1
PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма, числа или графика.

Для работы с библиотекой необходимо указать ключ OpenAI API или Google PaLM. Языковая модель автоматически распознает контекст по названию полей используемых датафреймов, а при использовании нескольких датафреймов сама определяет ключи их соединения.

#Development
👍4😁2🔥1🎉1
Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач

Стартап Inflection официально представил Inflection-1 - большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось "на тысячах" GPU Nvidia H100. Inflection-1 конкурентоспособна или даже превосходит GPT-3.5, LLaMA и PaLM-540B в решении экзаменационных и логических задач.

Inflection-1 в среднем достигает средней оценки 72.7% по всем 57 задачам и точности более 90% на 5 задачах, 85% на 15 задачах. Для сравнения, эксперт-человек набирает в среднем 89.8%, в то время как средний человеческий оценщик показывает результат 34.5%.

Результаты свидетельствуют о хорошей производительности Inflection-1 в решении экзаменов средней и старшей школы и логических задач, например, "если Ваня бросил мяч на крышу, а Женя кинул его обратно, где находится мяч?".

#AppliedDS #StateoftheArt
👍51
Проект «Закона об искусственном интеллекте» принят в Европарламенте. Что ждет разработчиков?

Европарламент принял проект закона большинством голосов: 499 «за», 28 «против» и 93 воздержавшихся. В Законе будут прописаны требования к моделям для предоставления услуг на территории ЕС. Нарушения будут караться штрафом до 20 млн евро или 4% от выручки компании. 

Исследователи Стэнфордского университета оценили десять языковых моделей с точки зрения соответствия требованиям закона. Большинство моделей набрали менее 50% необходимых баллов. Open source модель BLOOM от Hugging Face показала лучший результат - 36 баллов. Однако другие open source модели, такие как LLaMA и Stable Diffusion v2, набрали всего 21 и 22 балла соответственно.

Модели с закрытым исходным кодом, такие как GPT-4 от OpenAI, набрали по 25 из возможных 48 баллов. PaLM 2 от Google - 27 баллов. Claude от Anthropic занимает предпоследнее место с 7 баллами.

#AppliedDS
👎9👍5😱4🤨1
Media is too big
VIEW IN TELEGRAM
MAGVIT: open source генеративный видео-трансформер 10 в 1

Единая модель MAGVIT способна выполнять 10 задач генерации видео, среди которых увеличение FPS, экстраполяция кадров, создание видео за пределами кадра, заполнение пропущенных участков видео и генерация видео по заданным условиям. MAGVIT улучшил результаты state-of-the-art подходов на трех бенчмарках генерации видео. На датасете Kinetics-600 MAGVIT показал улучшение на 39%. 

Авторы разработали 3D-VQ архитектуру для квантизации видео с высоким качеством восстановления. Квантизация происходит с коэффициентом 4 по времени и в 64 раза по высоте и ширине с использованием кодовой книги из 1024 элементов. Модель обучалась на общедоступном наборе данных Something-Something-V2.

Работа авторов будет представлена на конференции CVPR 2023, код модели доступен на Github.

#StateoftheArt
🔥92
AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM - модель для обработки и генерации речи, объединяющую две языковые модели от Google - PaLM-2 и AudioLM - в мультимодальную архитектуру. Модель умеет распознавать речь, копировать интонацию, акцент, выполнять перевод речи на другие языки на основе короткой голосовой подсказки и делать транскрипцию.

AudioPaLM унаследовала от AudioLM возможности идентификации говорящего и копирования интонации, от PALM-2 - лингвистические способности LLM. Эксперименты показали, что инициализация AudioPaLM c весами текстовой модели, полученными на предварительном обучении, заметно улучшает обработку речи. Матрица эмбеддингов предварительно обученной текстовой модели используется для моделирования набора аудио-токенов. Результирующая модель превосходит state-of-the-art модели перевода речи и способна выполнять перевод речи в текст для языков, комбинации которых не были учтены при тренировке (zero-shot перевод).

#StateoftheArt
4👍4🔥2
Phi-1 - языковая модель для генерации кода от Microsoft Research всего с 1,3B параметров, достигшая близкого к state-of-the-art уровня оценок с помощью тщательно собранного авторами датасета

Большинство датасетов с кодом непригодны для обучения моделей: не содержат полной информации, осмысленных комментариев, токены представляют собой конфигурационные файлы или черновые варианты.

Авторы создали собственный близкий по качеству к учебнику по программированию датасет CodeTextBook с кодом на языке Python, содержащим 6B токенов, отобранных из The Stack и StackOverflow, а также 1B токенов, сгенерированных GPT-3.5, при этом последние включали комментарии и описание.

Дообучение модели на датасете CodeExercises, содержащим 180M токенов с синтетически сгенерированными упражнениями с подробными описаниями, неожиданно наделило модель эмергентными свойствами, например, использовать внешние библиотеки Pygame и Tkinter, хотя в датасете библиотеки не упоминались.

#StateoftheArt
@neurohive
👍9
Neurohive - Нейронные сети, AI, ML, DL
Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач Стартап Inflection официально представил Inflection-1 - большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на…
UPD: Стартап Inflection привлек $1,3 миллиарда на очередном инвестраунде от группы инвесторов во главе с Биллом Гейтсом и экс-CEO Google Эриком Шмитдом. Больше инвестиций среди генеративных AI стартапов привлекала только OpenAI - $11 миллиардов.

Инвестраунд прошел после анонса state-of-the-art модели для решения логических задач Inflection-1, и запуска персонального AI-ассистента Pi, умеющего планировать и составлять расписания, собирать информацию и выполнять другие рутинные задачи.

#AppliedDS
@neurohive
👏2🎉1
Исследовательская лаборатория AI Foundation запустила AI.XYZ – платформу для создания личных AI-ассистентов. Компания заявляет, что AI.XYZ является первой в мире платформой для управления жизнью с использованием AI, позволяющей решать как личные, так и профессиональные задачи.

Каждый ассистент уникален и может помочь с такими задачами, как ведение заметок, написание сообщений, мозговой штурм, обсуждение разных точек зрения и приоритезация задач. Пользователи могут расширить базу знаний своего ассистента, отправляя ему документы, ссылки и заметки, а также предоставив доступ к своей почте, мессенджеру, календарю и списку дел.

#AppliedDS
🔥3👍2
Media is too big
VIEW IN TELEGRAM
DragGAN: open source модель для манипуляции созданными GAN изображениями

Исследователи из Института Макса Планка, MIT и Google представили подход DragGAN для манипуляции содержимым изображений, созданных с помощью GAN. Достаточно расставить несколько опорных и целевых точек на изображении, и модель переместит опорные точки для соответствия целевым точкам. При желании можно использовать бинарную маску, чтобы оставить часть изображения неизменным.

DragGAN деформирует изображение с точным контролем смещения пикселей, позволяя менять позу, форму, выражение лица и композицию объектов: животных, автомобилей, людей, природных явлений.

Авторы также показали, как можно манипулировать реальными (не сгенерированными нейросетью) изображениями. Для этого сперва производится инверсия GAN для отображения его в латентном пространстве StyleGAN, после чего изображение редактируется.

#StateoftheArt
👍6🤓31🤣1
Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на вход несколько изображений объекта, текстовую подсказку с описанием новой сцены и выделить область, в которую следует поместить объект.

Исследователи объединили две open source модели, построенных на архитектуре Stable Diffusion. В результате получилась новая модель, точно контролирующая расположение и размер выбранного объекта на новой сцене. Метод регионально-управляемой выборки обеспечил сохранение качества и достоверности сгенерированных изображений на выходе. PACGen обучилась разделять идентичность объекта и пространственную информацию для создания персонализированных изображений.

Потенциал модели огромен, например, дизайнеры рекламы могут размещать свою продукцию в любом желаемом месте на рекламном баннере.

#StateoftheArt
👍5
Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие авторы контента.

Сервис осуществляет сквозной процесс дубляжа, включающий автоматическую транскрипцию, перевод, генерацию голоса и микширование аудио. Особенностью Deepdub Go является точный учет контекста оригинальной аудиодорожки, включая воспроизведение эмоций говорящего и корректный перевод шуток и идиом.

#AppliedDS
👍10🔥6
🔥 Плагин Code Interpreter стал доступен всем пользователям ChatGPT Plus в режиме Beta. Code Interpreter умеет работать не только с кодом.

Пользователи теперь могут выполнять все эти задачи в веб-интерфейсе ChatGPT:
1. Визуализировать данные, рисовать красивые диаграммы и графики на основе данных;
2. Обрабатывать изображения: обрезать, конвертировать, улучшать разрешение, настраивать яркость и контрастность, доставать метаданные;
3. Создавать простые игры за несколько минут из графических моделей;
4. Искать инсайты в данных;
5. Конвертировать GIF в MP4 и добавлять эффекты;
6. Выполнять технический анализ финансовых активов;
7. Создавать HTML сайты с визуализацией;
8. Анализировать музыкальные предпочтения;
9. Распознавать текст на изображении;
10. Обрабатывать неструктурированные данные.

Плагин включается в настройках аккаунта.

#AppliedDS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31🤩1