D. Lab
1.1K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📺 По китайскому ТВ покажут нейроаниме

Государственный канал CCTV анонсировал выход аниме-сериала, созданного с помощью text-to-video модели.

✏️ Все серии аниме будут основаны на классических произведениях китайской поэзии.

Не уточняется, что за text-to-video модель используется, но судя по трейлеру, многое будет сделано традиционными "ручными" инструментам

🫡 Полностью анонс можно посмотреть здесь.

🤝 Проект разрабатывала государственная China Media Group (CMG) совместно с шанхайской ИИ-студией. Во время анонса CMG рассказали о запуске отдельной ИИ-студии для разработки подобных проектов.

Не показывайте эту новость тем, кто расстроился из-за аниме Netflix, где нейросеть всего лишь нарисовала фон.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👎2
🎮 Google показал нейросеть для генерации игровых миров

Genie (Generative Interactive Environments) позволяет генерировать интерактивное окружение из нейроизображений, фотографий, набросков.

🎞 Модель тренировали на большом датасете видео, находящихся в открытом доступе, с упором на клипы из игр-платформеров, а также видео, где робототехника взаимодействует с различными объектами.

🤝 Универсальность Genie позволяет ей использовать генерации, созданные другими нейросетями для создания виртуального окружения. В качестве примера авторы показали работу Genie с гугловской нейросетью Imagen.

🗣 Разработчики также говорят, что в будущем Genie подойдет для создания ИИ-агентов, которые смогут взаимодействовать с окружением, созданным человеком, а не нейросетью. Модель для этого можно тренировать на ее же генерациях.

Недавно мы рассказывали, как энтузиаст сделал ремейк Angry Birds с помощью нейросетей. Для этого ему понадобились сразу три модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
💋 Генерации Pika получили липсинк

🔈 Теперь в видеогенерации Pika можно добавлять синтетический голос с помощью модели ElevenLabs. Также можно загрузить свой аудиофайл.

💬 Сгенерированные персонажи при этом изо всех сил будут стараться открывать рот синхронно с произносимым текстом.

Функция пока запущена в тестовом режиме. Pika добавили такую возможность первыми среди конкурентов 💪.

Попробовать липсинк пока могут только платные подписчики Pika.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
💵 Конкурент GPT Store для обмена чат-ботами получил $10 млн

🫴 FlowGPT позволяет пользователем создавать свои чат-боты (здесь их называют ИИ-приложения) на основе готовых LLM-моделей, а затем делиться ими с другими пользователями.

Все как у GPT Store.

☝️ Но есть и отличия. Например, FlowGPT позволяет работать с разными моделями (GPT, Gemini, Claude, Llama и другие). Правда, за использование некоторых моделей придется доплатить.

❗️ Под ИИ-приложениями не стоит понимать приложения как в AppStore. По сути, пользователи FlowGPT обмениваются промптами для настройки GPT-моделей под определенные задачи.

FlowGPT также позволяет пользователям поблагодарить авторов за их работу «чаевыми». В GPTStore монетизацию пока не запустили.

👥 Разработчики хотят построить открытую экосистему, где маркетплейс будет лишь одним из элементов, а важную роль будет играть комьюнити вокруг платформы.

🫢 Но есть и проблемы. Как и в случае с GPT Store, кастомные чат-боты, которые появляются в магазине, плохо модерируются. Из-за этого большое количество ИИ-приложений — это в лучшем случае LLM с отключенными ограничениями, а в худшем — генераторы вредоносных приложений.

Тем не менее FlowGPT удалось привлечь от инвесторов $10 млн. Деньги потратят на доработку инфраструктуры платформы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3👍2
🗣 Alibaba показал генератор говорящих аватаров

EMO позволяет анимировать фотографию человека и добавить аватару аудиодорожку на разных языках.

💬 На выходе получается говорящая голова, которая с впечатляющим липсинком произносит любой текст.

В качестве одного из примеров разработчики анимировали девушку, которую, в свою очередь, сгенерировала Sora (первое видео в подборке).

😮 Только вчера мы сдержанно хвалили липсинк от Pika, но EMO выглядит, пожалуй, эффектнее: аватар не только попадает в аудио, но и обладает реалистичной мимикой, передающей эмоции (поэтому и EMO).

🛑 Но нейросеть от Alibaba пока недоступна для тестирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎼 Adobe сделал прототип музыкального редактора с ИИ

Программа с длинным названием Project Music GenAI Control позволяет по промпту сгенерировать музыкальный трек, а затем отредактировать его в том же интерфейсе. Сам интерфейс при этом не показывают, потому что его пока просто нет 🤷‍♀️.

🏆 Встроенный редактор — это, пожалуй, главное отличие инструмента Adobe от похожих нейросетей, которые выпускали, например, Meta* и Google.

GenAI Control также может сгенерировать трек по мелодии-референсу или расширить исходный фрагмент до полноценного трека.

🗣 Большой пробел в возможностях GenAI Control — отсутствие генерации вокала и текстов, которые есть, например, у Suno.

📆 Пока GenAI Control находится на стадии прототипа и даты релиза у нее нет даже приблизительной.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
😈 В дарквебе продают «плохие» чат-боты для хакеров

В «параллельном» интернете нашли около 200 сервисов, которые помогают использовать чат-бот для вредоносной активности.

🔩 В большинстве случаев речь идет о донастроенных опенсорс-моделях вроде Llama, но также это могут быть взломанные «закрытые» LLM, такие как GPT (одна из его «темных» версий называется BadGPT).

💵 ИИ-сервисы для хакеров стоят от $5 до $199 в месяц.

☝️ Взломанные модели хакеры используют для быстрого написания фишинговых имейлов, создания фейковых сайтов и вредоносных программ, а также для имперсонации топ-менеджеров с целью мошенничества. В качестве примера последнего можно вспомнить историю банковского служащего из Гонконга, который перевел больше $25 млн дипфейкам.

В общем, хакеры успешно используют все возможности современных LLM, которые разработчики обычно рекламируют как главные фичи своих моделей.

🇫🇷 Интересно, что в качестве самой «удобной» LLM для генерации почтового скама эксперты называют опенсорсную модель Mixtral от французского стартапа Mistral. Mixtral из-за особенностей архитектуры после дополнительной настройки справляется с хакерскими задачами лучше аналогов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🤔2
Маск подал в суд на OpenAI, ИИ войдет в совет директоров, New York Times обвинили во взломе ChatGPT — и другие важные новости за неделю

Илон Маск подал в суд на OpenAI — стартап, в создании которого он когда-то принимал участие. Глава Tesla считает, что OpenAI слишком далеко ушли от свое изначальной миссии — разрабатывать ИИ на благо человечества, а не для получения прибыли. В иске Маск требует от OpenAI выложить все исследования и технологии компании в открытый доступ;

Disney даст денег сразу пяти ИИ-стартапам. В рамках программы Disney Accelerator инвестиции получат ElevenLabs, AudioShake, Status Pro, Nuro, Promethean AI. Все они занимаются генеративным аудио;

Крупнейшая в Абу-Даби компания International Holding ввела в совет директоров в качестве наблюдателя искусственный интеллект. В переводе это означает, что Aiden Insight (так называется ИИ-помощник) будет 24/7 анализировать экономическую и бизнес-информацию, предлагать совету директоров компании различные стратегические решения;

VK разработал языковую модель, частично обученную на комментариях пользователей в группах во ВКонтакте. Новую LLM тестируют в принадлежащем VK Mail.ru — генеративные возможности добавили в почту и календарь;

OpenAI обвинил New York Times (NYT) во «взломе» ChatGPT. Взлом заключается в том, что NYT якобы наняли специального человека, который долго вводил в чат-бот однотипные промпты, с целью заставить ChatGPT «сгаллюцинировать» фейковые статьи газеты. NYT в конце прошлого года подал иск к OpenAI, который грозит стартапу серьезными последствиями;

Google платит изданиям за тестирование новой модели для генерации новостного контента. В обмен на пятизначную сумму участники тестирования должны в течение года публиковать у себя фиксированное количество текстов (три заметки в день), сгенерированных моделью по заданным источникам. Предполагается, что такая нейросеть будет полезна изданиям с небольшим штатом сотрудников;

Amazon инвестирует $1 млрд в стартапы, которые занимаются интеграцией ИИ в роботов. Для этих целей компания создала отдельный инвестиционный фонд. Amazon крайне заинтересован в умных роботах для усовершенствования своей логистической инфраструктуры;

Meta* планирует этим летом выпустить третью версию свой опенсорсной LLM Llama. Одна из основных задач, стоящих перед разработчиками, — сделать модель более «разговорчивой». Llama 2 периодически отказывалась отвечать даже на безобидные запросы. При этом компании надо соблюсти баланс, чтобы нейросеть не сгенерировала что-нибудь незаконное.

*Организация, запрещенная на территории РФ
🔥5👍3
Кадр из ремейка Дома у дороги

🗣 Amazon обвинили в незаконном клонировании голосов


📝 Сценарист Р. Лэнс Хилл считает, что Amazon и MGM использовали нейросети для клонирования голосов в ремейке фильма Дом у дороги 1989 года. Хилл написал сценарий для оригинального фильма.

Хилл утверждает, что в ноябре 2023 года у MGM (а значит, и у Amazon, которому принадлежит MGM) закончились права на сценарий, который он написал. По словам Хилла, он заранее сделал все необходимые действия, чтобы вернуть себе права на сценарий, но Amazon его просто проигнорировал 🫤.

Более того, чтобы побыстрее закончить работу над ремейком триллера, компания в период забастовки голливудских сценаристов и актеров якобы использовала нейросети для клонирования голосов. Несмотря на ухищрения, закончить работу до истечения сроков копирайта Amazon не удалось — продакшн завершился только в январе 2024 года.

🤖 Хилл отмечает, что Amazon и MGM не только нарушили его авторские права, но и договоренности, которые были достигнуты между сценаристами, актерами и крупными киностудиями. Договоренности ограничивали возможности использования ИИ на кинопроектах.

Официального комментария от Amazon не было, но знакомые с ситуацией утверждают, что генеративный контент в финальную версию фильма не вошел. Даже если так, то вопрос с правами Хилла на его сценарий остается открытым.
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑➡️🤖 ИИ заменил компании 700 работников

🌤 Финансовый сервис Klarna начал 2023 год с убытков, но к концу года смог выйти в прибыль и даже готовится провести IPO.

🔩 Причина успеха — использование сервисов OpenAI. ChatGPT появился в приложении Klarna и теперь помогает пользователям оформить возврат, дает финансовые советы, обрабатывает запросы неанглоязычных пользователей и т. д.

Время на обработку одного запроса сократилось с 11 минут до двух, при этом пользователи остаются одинаково довольны после общения с ИИ, как и при общении с живым сотрудником техподдержки.

💪 В пресс-релизе компании говорится, что в первый же месяц чат-бот отработал 2,3 млн пользовательских запросов (около ⅔ от общего количества). Чтобы справиться с таким количеством запросов, в обычной ситуации компании нужно около 700 сотрудников. Это позволило Klarna изменить свою стратегию рекрутинга — проще говоря, сэкономить на найме.

🔽 По итогам прошлого года штат Klarna сократился на четверть, но в компании утверждают, что это не связано с ChatGPT.

💵 По прогнозам компании, чат-бот по итогам года может принести Klarna дополнительные $40 млн прибыли.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🏃‍♂️ Скоростная и экономичная модель для генерации 3D

TripoSR позволяет по одному изображению объекта (генерации нейросетей тоже подходят) менее чем за секунду сгенерировать его 3D-версию*.

*при условии использовании чипа Nvidia A100

Чтобы достичь такой скорости, разработчики вдохновлялись методом LRM, при котором модель уже по исходному изображению до непосредственно генерации «предсказывает» его NeRF-версию 🔮.

😱 Оптимизация Image-to-3D модели позволяет ей работать даже без GPU (но иногда на выходе можно получить вот такого щеночка). Попробовать нейросеть можно здесь.

🤝 TripoSR — совместная разработка стартапа Tripo и разработчиков Stable Diffusion — Stability AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
📚 Сервис, который ищет бестселлеры с помощью ИИ

Литературная платформа Inkitt позволяет любому бесплатно опубликовать свое произведение и уже привлекла больше 30 млн пользователей.

В последнее время сервис активно развивает ИИ-возможности платформы.

🤖 Нейросети и Data-аналитика помогают найти потенциальные бестселлеры, которые затем можно будет продавать за деньги читателям (на другом сервисе команды — Galatea), а в случае с самыми успешными — еще и продать права на экранизацию.

📺 Кстати, экранизации уже были, но вряд ли вы что-то слышали про сериал «Прекрасная ошибка».

Для поиска хитов ИИ анализирует не только отзывы пользователей, но и содержание самиздата: сюжет, персонажи, стиль, даже эффективность первых предложений (сразу ли они увлекают читателя) и наличие клиффхэнгеров 💣.

💵 Недавно сервис получил $37 млн от инвесторов, которые также планируют вложить в развитие ИИ-возможностей платформы. Например, Inkitt в будущем сможет развить идею в полноценную историю; генерировать несколько версий произведения, чтобы угодить читателям с разными интересами; создавать генеративный видеоконтент, который будут публиковать на Galatea TV.

🤴 Своей целью Inkitt ставят стать «Disney XXI века».
Please open Telegram to view this post
VIEW IN TELEGRAM
4🤔2
В Китае раздают ИИ-ваучеры, Meta* отказала Google, Мадонна использует нейросети — и другие важные новости за неделю

Один из основных конкурентов Open AI, стартап Anthropic, представил третью версию своего чат-бота и набор ИИ-моделей под общим названием Claude 3. Разработчики дежурно заявляют, что их модели в бенчмарках показывают лучшие результаты, чем GPT и Gemini. Чат-бот при этом может обработать текст длиной 150 тыс. слов против жалких 3 тыс. у ChatGPT;

Meta* отказалась от партнерства с Google в разработке XR-хедсетов. Google предлагал Meta использовать операционную систему Android XR в хедсетах вместе ОС Quest, которая устанавливается на них сейчас. В обмен Google обещал открыть доступ ко всем своим основным приложениям (Meta давно пытается этого добиться). В итоге компания Цукерберга отказалась от предложения, посчитав его неравноценным;

Apple получил от Евросоюза штраф на €1,84 млрд после жалобы Spotify, поданной еще в 2020 году. Стриминг-сервису не понравилось, что Apple запрещает рекламировать более дешевые варианты подписки, если они оформляются не через App Store. Европейские регуляторы признали такую практику нарушением антимонопольного законодательства;

Китайские власти предлагают небольшим ИИ-стартапам ваучеры на сумму до $280 тыс. Деньги можно потратить на оплату вычислительных мощностей для работы и обучения своих ИИ-моделей. Запустить программу с ваучерами пришлось после американских санкций, которые вынудили владельцев облачных серверов отказываться от договоренностей с ИИ-компаниями, чтобы использовать ограниченные мощности для своих нужд и для «ключевых клиентов»;

Мадонна начала использовать генеративный ИИ на своих концертах. Во время исполнения отдельных песен на концерте видеоряд для них генерирует нейросеть Gen-2 от Runway. По словам людей, которые режиссируют концерты Мадонны, Gen-2 справилась с задачей лучше, чем CGI: компьютерная графика не понравилась певице, так как выглядела кринжово и «мертво»;

Впечатлившись демонстрацией Sora, китайцы решили сделать свою версию модели — но с открытым кодом и с возможностью быстрого масштабирования. Результатов работы Open Sora почти никаких, пока идет набор в команду разработчиков;

Apple выпустила iOS 17.4, в которой появилась возможность установки приложений из сторонних магазинов приложений. Доступно только пользователям в ЕС, остальным остается надеяться, что кто-то придумает, как обойти региональные ограничения;

После иска Илона Маска к OpenAI создатели ChatGPT опубликовали имейлы, из которых следует, что Маск был совсем не против, чтобы OpenAI зарабатывала деньги. Глава Tesla также предлагал привлечь «миллиарды» инвестиций, чтобы иметь возможность конкурировать с Google (хотя сейчас Маск критикует OpenAI за миллиардные инвестиции от Microsoft). Просчитался, но где…

*Организация, запрещенная на территории РФ
👍5
☠️ Промпт-инжиниринг мертв?

Профессия, которая еще год назад считалась одной из самых перспективных, к началу 2024 года, кажется, умерла, так и не успев толком родиться.

Как раз об этом вышла статья в журнале Spectrum, который издает IEEE — американский Институт инженеров электротехники и электроники.

🤖 На смену промпт-инжинирингу приходит ИИ промпт-инжиниринг — оказалось, что генеративные модели справляются с написанием текстовых подсказок лучше, чем люди. Просто попросить модель написать оптимальный промпт — принесет более качественные результаты, чем метод проб и ошибок, который используют люди.

🔩 Для оптимизации используются инструменты (например, DSPy), которые за несколько итераций, используя специальные бенчмарки, подберут наиболее эффективные промпты для конкретной модели. У ИИ подбор иногда занимает до 10 раз меньше, чем у человека.

🖼 Это касается как LLM, так и нейросетей, которые генерируют изображения. Например, в Intel Labs придумали программу NeuroPrompts, которая самостоятельно расширяет примитивный промпт для Stable Diffusion в продвинутый, чтобы получить детализированную картинку.

🧑 Исследователи отмечают, что людям в написании эффективных промптов мешает излишнее «очеловечивание» ИИ-модели — пользователь вольно или невольно исходит из ошибочного предположения, что нейросеть мыслит как человек и «говорит» на его языке.

🌞 Тем не менее совсем хоронить промпт-инженеров не стоит, считают отдельные эксперты. Эти специалисты будут заниматься не профессиональным придумыванием текстовых подсказок, а скорее настраиванием/масштабированием моделей под определенные нужды. Такие профессионалы, по сути, будут операторами ИИ-моделей, одной из задач которых в каком-то виде может быть и промпт-инжиниринг.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3🤔2😁1
🆕 Новая генеративная нейросеть — на этот раз от Huawei

Pixart-Σ генерирует изображения сразу в 4K. Это уже вторая версия нейросети. По сравнению с предыдущей версией (Pixart-α), Σ точнее следует промпту и генерирует картинки более высокого качества 💪.

Пожалуй, наиболее интересной особенностью разработки Huawei является модель, на которой она работает — диффузионный трансформер (DiT). Ее также используют недавно анонсированная Stable Diffusion 3 и уже ставшая полумифической Sora 👑.

Главным отличием диффузионных моделей на основе DiT является иной принцип шумоподавления, — трансформер вместо сверточной сети (U-net), — архитектура, которая ускоряет работу нейросети, обрабатывая больше информации. Именно благодаря ей генерации Sora выглядят настолько круче конкурентов 😮.

Генерации Pixart-Σ, конечно, такого эффекта, как видео от Sora, не производят, но и основным конкурентам не уступают.

📆 Код обещают выложить до начала апреля, пока здесь можно потестить предыдущую версию Pixart.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔32👍2