Neurohive - Нейронные сети, AI, ML, DL
4.62K subscribers
250 photos
46 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Нейросети, улучшающие качество фото: обзор бесплатных онлайн сервисов

В обзоре рассмотрим онлайн сервисы на основе нейросетей, которые улучшают качество фото бесплатно. Улучшение качества предполагает увеличение разрешения фото без потери качества до 4к и 8к, повышение четкости, устранение шума и размытости. Для проверки результатов работы будем использовать одну и ту же фотографию в разных онлайн сервисах.

Лимит на бесплатную обработку в среднем варьируется от 5 попыток всего до нескольких каждый день. Если вы хотите бесплатно обрабатывать множество фотографий, то запустите нейросеть локально и платите только за электричество, например, попробуйте open source модель Upscaуl.

#AppliedDS #AIApps
⭐️ Рейтинг нейросетей для генерации изображений из текста

Появилось много text-to-image приложений, каждое из которых обладает своими преимуществами и недостатками. Предлагаем актуальный на август 2023 рейтинг нейросетей для генерации изображений по текстовому запросу.

Топ составлен на основе тестов генерации фотореалистичных изображений с использованием одних и тех же промптов:

⭐️⭐️⭐️⭐️⭐️ Midjourney
⭐️⭐️⭐️⭐️⭐️ Stable Diffusion
⭐️⭐️⭐️⭐️ Kandinsky
⭐️⭐️⭐️⭐️ Picsart
⭐️⭐️⭐️⭐️ Шедеврум
⭐️⭐️⭐️ Wombo Dream
⭐️⭐️⭐️ Dall-E
⭐️⭐️ Artbreeder

Основные факторы выставления оценок: фотореалистичность, детализация, наличие артефактов, соответствие текстовому описанию, стоимость.

По гамбургскому счету, только Midjourney и Stable Diffusion справились с задачей генерации фотореалистичного изображения, соответствующего промпту.

Подробности и примеры в статье

#AIapps #AppliedDS
Please open Telegram to view this post
VIEW IN TELEGRAM
Audio
Stability AI представила Stable Audio - нейросеть для генерации музыки и звуков по текстовой подсказке. Stable Audio способна генерировать 95 секунд стереоаудио с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.

Архитектура Stable Audio включает вариационный автоэнкодер (VAE), текстовый энкодер и диффузионную модель архитектуры U-Net. Stable Audio обучалась на датасете, содержащем более 800 000 аудиофайлов: музыку, звуковые эффекты, инструментальные сэмплы и соответствующие им текстовые метаданные общей длиной более 19 500 часов.

#AIapps
Media is too big
VIEW IN TELEGRAM
OpenAI анонсировала новую модель - GPT-4 Omni, которая смогла удивить.

GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели планируется запустить поддержку новых аудио- и видеовозможностей GPT-4o для группы доверенных партнеров по API.

— Функции платных подписчиков станут доступны для всех бесплатно;

— Полноценный голосовой ассистент - отвечает человечным голосом, способен менять его по командам: шептать и даже петь;

— Задержка у ассистента минимальная, что открывает возможность синхронного перевода;

На видео Грег Брокман 5 минут разговаривает с новой GPT4o.

Вот еще 33 видео-примера использования GPT-4o: https://vimeo.com/openai

#AIApps #Stateoftheart
Компания King, разработчик Candy Crush Saga, активно внедряет ИИ в процесс разработки и оптимизации игры. Сахар Асади из AI Labs Activision Blizzard King (ABK) рассказала, как им удалось уcкорить разработку уровней на 50% с помощью ИИ.

В 2022 году Activizion Blizzard поглотила ИИ-стартап Peltarion, сотрудники которого перешли в ABK, где заняли ключевые позиции. Результатом их работы стало сокращение количества ручных исправлений при разработке уровней на 95%.

ИИ, созданный компанией King, не пытается победить людей, как AlphaZero, а стремится их имитировать. «Допустим, вы находитесь на втором или третьем ходу: бот смотрит на доску, оценивает возможные действия, которые вы можете предпринять, и затем выбирает лучший вариант. И 'лучший' в данном случае — это тот, который с наибольшей вероятностью выбрал бы человек.»

Человеческие дизайнеры оценивают качество созданных ботом уровней. «В конечном итоге именно левел-дизайнеры знают, что является увлекательным для игроков и что они хотят получить от игрового процесса».

Фото: The Gradient

#AIapps #Development
MindsDB - open source платформа на основе ИИ для работы с базами данных. MindsBD анализирует данные в реальном времени, генерирует аналитические инсайты, автоматизирует рутинные задачи.

Платформа позволяет внедрить ИИ без изменения инфраструктуры базы данных, поддеживает совместимость с MySQL, PostgreSQL и MariaDB. Встроенный AutoML автоматически выбирает лучшие алгоритмы и параметры для оптимальной производительности. Пользователи могут обучать и разворачивать модели машинного обучения с помощью простых SQL-запросов, интерфейс простой и интуитивно понятный. Открытый исходный код дает возможность пользователям предлагать свои изменения и дополнения.

#AIApps
Ideogram выпустил text-to-image модель Ideogram 2.0. Субъективно она значительно превосходит всех конкурентов в точности отображения текста (сравнение в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать модель в свои приложения.

Ideogram 2.0 обучена с нуля и построена на архитектуре трансформера, которая оптимизирует понимание, генерацию и редактирование текста. Модель имеет усовершенствованный механизм внимания, который улучшает её способность обрабатывать и генерировать большие объемы текста, сохраняя при этом высокую связность и точность контекста.

Модель доступна в веб-приложении и на iOS.

#AIapps
В Яндекс Браузер добавился инструмент на нейросетях, который помогает создавать тексты с нуля или улучшать уже написанные, он справляется с профессиональной лексикой и может работать в формате PDF, DOC, TXT.

Исследователи из Яндекса показали, как они улучшили эти модели на базе YandexGPT, оптимизируя процессы редактирования текста с помощью алгоритма поиска LCS-подпоследовательностей. Вместо стандартных методов оценки исправлений они использовали диффалку на Go, что позволило значительно ускорить проверку корректности модели. Переход с архитектуры Decoder на Encoder-Decoder привел к двукратному сокращению времени генерации текста, сохранив качество обработки данных.

Дополнительно был применён подход curriculum learning с сортировкой обучающих примеров по расстоянию Левенштейна. Это позволило модели адаптироваться к разным уровням сложности задач, обеспечив рост качества на +10% по сравнению с предыдущими версиями. Полная поддержка Маркдауна и новые функции, такие как улучшение стиля и генерация, делают нейроредактор более гибким и эффективным инструментом для профессиональных пользователей.

#AIapps
Под капотом Нейро: от LLM к VLM. Недавно Яндекс обновил свою поисковую систему Нейро, интегрировав в неё передовую VLM для улучшения работы с визуальным контентом.

В своей публикации на Хабре ML-инженер из Яндекса подробно рассказывает о принципах работы визуально-текстовых мультимодальных моделей. Он описывает архитектуру VLM и объясняет процесс обучения, который включает предобучение на миллионах семплов и тонкую настройку.

В статье сравнивается работа предыдущей версии Нейро на базе LLM и функционирование новой системы с VLM. Это наглядно демонстрирует, почему новая версия эффективнее справляется с анализом изображений и связанных с ними запросов.

Интересный факт: Яндекс использует билингвальную модель, способную отвечать на русском и английском языках, что позволяет проводить тесты на англоязычных бенчмарках и проводить SbS-сравнения на русском языке.

#AIapps #Development
This media is not supported in your browser
VIEW IN TELEGRAM
В бесплатном генераторе видео HailuoAI появилась функция image2video. Качество генерации не уступает Luma, Runway и Kling.

В первом релизе, который вышел месяц назад, в Hailuo была реализована только функция text-to-video. Теперь это полноценный генератор видео, в котором можно создавать ролики длинее минуты на основе текста, изображения и их комбинаций.

Hailuo принадлежит китайскому стартапу Minimax, за которым стоят мощности Tencent и Alibaba. Как долго доступ будет оставаться бесплатным неизвестно.

Протестировать Hailuo

#AIapps
This media is not supported in your browser
VIEW IN TELEGRAM
Mochi 1 - открытая модель генерации видео с 10 миллиардами параметров от Genmo Ai. Mochi 1 поддерживает только текст-в-видео и генерирует видео с частотой 30 fps длительностью до 5,4 секунд.

Разработчики Genmo AI фокусировались на качестве движений камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face, Github, а также в веб-приложении.

Модель основана на архитектуре Asymmetric Diffusion Transformer. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну T5-XXL. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что на выходе дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Модель требует как минимум 4 GPU H100.

#Development #AIapps
OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.

Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.

Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.

#AIapps
Adobe выпустила в публичный доступ модель генерации видео Firefly, разработанную для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами: она обучена исключительно на лицензированных материалах Adobe Stock и общедоступных данных, не нарушающих авторские права.

Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.

Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.

Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.

#AIapps
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустил версию Claude for Education, разработанную специально для внедрения в университетах. Learning mode использует сократовский метод диалога, задавая уточняющие и наводящие вопросы и помогая студентам развивать критическое мышление.

Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.

В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.

Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.

#AIapps
Стартап Аватар Машина выпустил Fractal TechDocs - ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков для работы с нормативными документами на русском языке: ГОСТы, СП, СНиПы. Модель работает в закрытом контуре без риска утечки данных.

Fractal TechDocs поддерживает три режима ответов:
- Обычный ответ – типовой graph-RAG c краткими ответами и выдержками из документа;
- Ответ с размышлением – агент для развернутого анализа с учетом нескольких параметров, например, требований к пожарной безопасности для разных групп мобильности;
- Глубокое размышление – агент для больших отчетов по десяткам файлов, сравнение данных и детальным, структурным выводом.

Размер файлов ограничен 30мб или 500к слов, без ограничения на количество файлов. Поддерживаются текстовые форматы: doc, docx. pdf, ppt, txt и другие, анализируются изображения внутри документов.

TechDocs выпущен в статусе публичной беты, доступ полностью бесплатный.

#AIapps