Neurohive - Нейронные сети, AI, ML, DL

Audio

⚡ Stability AI представила Stable Audio - нейросеть для генерации музыки и звуков по текстовой подсказке. Stable Audio способна генерировать 95 секунд стереоаудио с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.

Архитектура Stable Audio включает вариационный автоэнкодер (VAE), текстовый энкодер и диффузионную модель архитектуры U-Net. Stable Audio обучалась на датасете, содержащем более 800 000 аудиофайлов: музыку, звуковые эффекты, инструментальные сэмплы и соответствующие им текстовые метаданные общей длиной более 19 500 часов.

#AIapps

Audio

👍6🔥2

3.09K views04:20

5:54

Media is too big

OpenAI анонсировала новую модель - GPT-4 Omni, которая смогла удивить.

GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели планируется запустить поддержку новых аудио- и видеовозможностей GPT-4o для группы доверенных партнеров по API.

— Функции платных подписчиков станут доступны для всех бесплатно;

— Полноценный голосовой ассистент - отвечает человечным голосом, способен менять его по командам: шептать и даже петь;

— Задержка у ассистента минимальная, что открывает возможность синхронного перевода;

На видео Грег Брокман 5 минут разговаривает с новой GPT4o.

Вот еще 33 видео-примера использования GPT-4o: https://vimeo.com/openai

#AIApps #Stateoftheart

❤3🔥1

2.48K viewsedited 05:54

Компания King, разработчик Candy Crush Saga, активно внедряет ИИ в процесс разработки и оптимизации игры. Сахар Асади из AI Labs Activision Blizzard King (ABK) рассказала, как им удалось уcкорить разработку уровней на 50% с помощью ИИ.

В 2022 году Activizion Blizzard поглотила ИИ-стартап Peltarion, сотрудники которого перешли в ABK, где заняли ключевые позиции. Результатом их работы стало сокращение количества ручных исправлений при разработке уровней на 95%.

ИИ, созданный компанией King, не пытается победить людей, как AlphaZero, а стремится их имитировать. «Допустим, вы находитесь на втором или третьем ходу: бот смотрит на доску, оценивает возможные действия, которые вы можете предпринять, и затем выбирает лучший вариант. И 'лучший' в данном случае — это тот, который с наибольшей вероятностью выбрал бы человек.»

Человеческие дизайнеры оценивают качество созданных ботом уровней. «В конечном итоге именно левел-дизайнеры знают, что является увлекательным для игроков и что они хотят получить от игрового процесса».

Фото: The Gradient

#AIapps #Development

👍8

2.02K viewsedited 09:53

MindsDB - open source платформа на основе ИИ для работы с базами данных. MindsBD анализирует данные в реальном времени, генерирует аналитические инсайты, автоматизирует рутинные задачи.

Платформа позволяет внедрить ИИ без изменения инфраструктуры базы данных, поддеживает совместимость с MySQL, PostgreSQL и MariaDB. Встроенный AutoML автоматически выбирает лучшие алгоритмы и параметры для оптимальной производительности. Пользователи могут обучать и разворачивать модели машинного обучения с помощью простых SQL-запросов, интерфейс простой и интуитивно понятный. Открытый исходный код дает возможность пользователям предлагать свои изменения и дополнения.

#AIApps

👍5

3.07K views07:01

Ideogram выпустил text-to-image модель Ideogram 2.0. Субъективно она значительно превосходит всех конкурентов в точности отображения текста (сравнение в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать модель в свои приложения.

Ideogram 2.0 обучена с нуля и построена на архитектуре трансформера, которая оптимизирует понимание, генерацию и редактирование текста. Модель имеет усовершенствованный механизм внимания, который улучшает её способность обрабатывать и генерировать большие объемы текста, сохраняя при этом высокую связность и точность контекста.

Модель доступна в веб-приложении и на iOS.

#AIapps

👍4

1.6K views08:39

В Яндекс Браузер добавился инструмент на нейросетях, который помогает создавать тексты с нуля или улучшать уже написанные, он справляется с профессиональной лексикой и может работать в формате PDF, DOC, TXT.

Исследователи из Яндекса показали, как они улучшили эти модели на базе YandexGPT, оптимизируя процессы редактирования текста с помощью алгоритма поиска LCS-подпоследовательностей. Вместо стандартных методов оценки исправлений они использовали диффалку на Go, что позволило значительно ускорить проверку корректности модели. Переход с архитектуры Decoder на Encoder-Decoder привел к двукратному сокращению времени генерации текста, сохранив качество обработки данных.

Дополнительно был применён подход curriculum learning с сортировкой обучающих примеров по расстоянию Левенштейна. Это позволило модели адаптироваться к разным уровням сложности задач, обеспечив рост качества на +10% по сравнению с предыдущими версиями. Полная поддержка Маркдауна и новые функции, такие как улучшение стиля и генерация, делают нейроредактор более гибким и эффективным инструментом для профессиональных пользователей.

#AIapps

👎5👍3

1.88K viewsedited 16:23

Под капотом Нейро: от LLM к VLM. Недавно Яндекс обновил свою поисковую систему Нейро, интегрировав в неё передовую VLM для улучшения работы с визуальным контентом.

В своей публикации на Хабре ML-инженер из Яндекса подробно рассказывает о принципах работы визуально-текстовых мультимодальных моделей. Он описывает архитектуру VLM и объясняет процесс обучения, который включает предобучение на миллионах семплов и тонкую настройку.

В статье сравнивается работа предыдущей версии Нейро на базе LLM и функционирование новой системы с VLM. Это наглядно демонстрирует, почему новая версия эффективнее справляется с анализом изображений и связанных с ними запросов.

Интересный факт: Яндекс использует билингвальную модель, способную отвечать на русском и английском языках, что позволяет проводить тесты на англоязычных бенчмарках и проводить SbS-сравнения на русском языке.

#AIapps #Development

👏4👍2🔥1

2.11K views13:45

0:05

В бесплатном генераторе видео HailuoAI появилась функция image2video. Качество генерации не уступает Luma, Runway и Kling.

В первом релизе, который вышел месяц назад, в Hailuo была реализована только функция text-to-video. Теперь это полноценный генератор видео, в котором можно создавать ролики длинее минуты на основе текста, изображения и их комбинаций.

Hailuo принадлежит китайскому стартапу Minimax, за которым стоят мощности Tencent и Alibaba. Как долго доступ будет оставаться бесплатным неизвестно.

Протестировать Hailuo

#AIapps

🔥4❤2❤‍🔥2👍2

2.07K views10:23

0:31

Mochi 1 - открытая модель генерации видео с 10 миллиардами параметров от Genmo Ai. Mochi 1 поддерживает только текст-в-видео и генерирует видео с частотой 30 fps длительностью до 5,4 секунд.

Разработчики Genmo AI фокусировались на качестве движений камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face, Github, а также в веб-приложении.

Модель основана на архитектуре Asymmetric Diffusion Transformer. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну T5-XXL. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что на выходе дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Модель требует как минимум 4 GPU H100.

#Development #AIapps

🔥3👍2❤1

2.19K viewsedited 10:09

0:10

0:10

0:05

OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.

Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.

Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.

#AIapps

👍5🔥2❤1

2.76K views08:43

0:52

0:21

0:05

Adobe выпустила в публичный доступ модель генерации видео Firefly, разработанную для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами: она обучена исключительно на лицензированных материалах Adobe Stock и общедоступных данных, не нарушающих авторские права.

Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.

Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.

Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.

#AIapps

👍12👎1

2.54K views09:55

0:34

Anthropic выпустил версию Claude for Education, разработанную специально для внедрения в университетах. Learning mode использует сократовский метод диалога, задавая уточняющие и наводящие вопросы и помогая студентам развивать критическое мышление.

Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.

В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.

Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.

#AIapps

🔥8👍3🤔2

1.99K views09:51