D. Lab
1.11K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
Какой ИИ самый глючный 🤯

Таким вопросом задалась компания Vectara, которая занимается разработкой поисковых систем.

📃 Авторы эксперимента протестировали несколько популярных моделей на глюки во время саммарайзинга нескольких сотен небольших документов. Для анализа результатов авторы использовали свой ИИ, обученный для задачи.

В данном случае под глюками понимается информация, которую модели выдали при саммарайзинге, но ее не было в исходном тексте 🔎.

Лучше всех в тестировании выступили GPT — галлюцинации возникали только в 3% случаев (для GPT-4 и GPT-4 Turbo) и в 3,5% — для версии 3.5. Но авторы уточняют, что Turbo отказался работать с некоторыми документами, поэтому его показатель, немного хуже, чем у обычной GPT-4 🫤.

Модель Claude, которую многие считают серьезным конкурентом GPT, словила глюки в 8,5%.

Хуже всех выступили продукты Google — Palm 2 (12,1%) и Palm 2 Chat (27,2%) 🔽.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔1
В Morgan Stanley рассказали, почему Apple станет лидером генеративного ИИ 🏆

Аналитик компании Эрик Вудринг считает, что производитель айфонов станет компанией, которая сорвет куш от внедрения генеративных алгоритмов 🎰.

Вудринг напоминает, что для эффективной работы ИИ-моделям нужны большие датасеты. У Apple, отмечает эксперт, для этих целей есть больше 2-х млрд проданных устройств и больше 1,2 млрд пользователей, которые генерируют драгоценную информацию нон-стоп 🏪.

С технологической точки зрения передовые устройства Apple, использующие единую «экосистему» сервисов, ПО и компонентов, сделают компанию настоящим AI-Enabler — компанией, которая выведет ИИ в мейнстрим, считает аналитик. Вудринг уверен, что Apple находится в уникальном положении, которого нет у его конкурентов 💪.

💵 Эксперт также видит несколько путей того, как Apple сможет монетизировать генеративку: внедрение ИИ обеспечит компании дополнительные миллионы проданных девайсов и миллиарды долларов выручки; запуск премиум-версий сервисов вроде Siri с ИИ-функционалом; дополнительные доходы для AppStore от ИИ-приложений; новые способы заработка на Traffic Acquisition Costs — деньгах интернет-поисковиков, которые те платят за рекламу на сторонних ресурсах.

🤔 Вудринг верит в светлое будущее Apple, хотя компания пока так и не представила ни одного ИИ-продукта. По некоторым данным, она вообще оказалась застигнута врасплох выходом ChatGPT.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍1
Голос Эдит Пиаф для нового байопика создадут с помощью ИИ

🎙 Warner Music Group начала работу над фильмом «Эдит», который расскажет историю жизни французской певицы с 1920-х годов и до момента ее смерти в начале 60-х.

🗣 Основная фишка будущего фильма — закадровый текст фильма будет читать синтетический голос Пиаф, воссозданный нейросетями по архивным записям голоса певицы.

📽 Из анонса можно сделать вывод, что авторы собираются не только клонировать голос, но и создать ИИ-версию образа исполнительницы, которую будут использовать в повествовании вместе с архивными кадрами.

Warner Music показали кадр из байопика. Выглядит … пока неубедительно 🤔.

«Эдит» будет полнометражным 1,5-часовым фильмом. С наследниками Пиаф создатели уже договорились 🤝.

🔉 Возможностей современных нейросетей пока не хватает на генерацию длинных видео, а вот с аудио они вполне справляются.

🎮 Например, за несколько недель до анонса «Эдит» разработчики видеоигры Cyberpunk 2077 рассказали, что сгенерировали для дополнения Phantom Liberty голос умершего актера Милогоста Речека. Речек озвучивал одного из персонажей в оригинальной игре, но не дожил до работы над дополнением. Разработчики хотели нанять другого актера, но потом решили почтить память Речека, клонировав его голос.

👨‍🎨 А Netflix использовал ИИ при создании документалки об Энди Уорхолле, чтобы воссоздать голос художника.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👎1
Альтмана уволили из OpenAI, YouTube ужесточит публикацию ИИ-контента, глава подразделения Stability AI ушел в знак протеста — и другие важные новости за неделю

Совет директоров OpenAI снял Сэма Альтмана с поста гендиректора компании, объяснив это тем, что Альтман был недостаточно «откровенен» в коммуникации правлением. Этим Альтман мешал выполнять совету свои обязанности, говорится в официальном сообщении. Место Альтмана займет Мира Мурати — нынешний CTO стартапа. Как пишет Axios, Microsoft — основной инвестор OpenAI — узнал об увольнении в последнюю минуту. Позже появилась информация, что Альтмана уже попросили вернуться обратно;

На этой неделе OpenAI также приостановил возможность приобрести платную подписку ChatGPT. Причина банальная — сервис стал настолько популярным (особенно после презентации DevDay), что у стартапа не хватает мощностей, чтобы обеспечивать ее работоспособность;

YouTube ужесточит правила использования генеративного ИИ на платформе. Теперь хостинг по запросу будет удалять контент, где есть «клонированный» голос, принадлежащий известному или неизвестному исполнителю (см. кейс Heart On My Sleeve). Со следующего года авторы должны будут помечать «реалистичный» ИИ-контент, опубликованный на YouTube (вероятно, речь идет о дипфейках). При этом в каких-то случаях YouTube будет удалять контент сразу, а в каких-то — проводить «расследование»;

Google собирается инвестировать несколько сотен миллионов в Character.AI — разработчика сервиса чат-ботов, которые могут общаться от лица выдуманных персонажей и реально существующих людей. Пользователи также могут создавать кастомных чат-ботов под свои нужды. Стартап (кстати, созданный бывшими сотрудниками Google) уже использует облачные мощности Google для работы;

Глава подразделения StabilityAI, отвечающего за разработку аудиомодели Stable Audio, уволился со своего поста в знак протеста. Эд Ньютон-Рекс заявил, что не согласен с тем, как компания использует авторский контент для обучения ИИ. Ньютон-Рекс считает, что такое использование никак нельзя назвать честным и нейросети действительно могут нанести ущерб авторам;

Spotify будут использовать ИИ Google, чтобы облегчить пользователям поиск интересных им подкастов. Для этого ИИ проанализирует все 5 млн подкастов на платформе и добавит в метаданные информацию, которая облегчит поиск контента.
🔥2
Нашествие генеративного аудио 💯

За последние пару недель появилось сразу несколько ИИ-сервисов для генерации и работы с аудио от больших компаний. Коротко рассказываем, что они из себя представляют:

🎧 Lyria от DeepMind «Дочка» Google показала свою «самую продвинутую» генеративную аудиомодель. Lyria умеет генерировать музыку и вокал в высоком качестве. DeepMind тестирует ее вместе с инструментом DreamTrack, который позволяет создавать музыку по промпту.

В эксперименте участвуют несколько исполнителей (Sia, Charli XCX, Деми Ловато и др.), которые согласились отдать свой голос ИИ. Несколько авторов на YouTube получили доступ к DreamTrack и могут выбрать одного из исполнителей, задать «тему» трека, а сервис с помощью Lyria сгенерирует 30-секундный отрывок вместе с текстом.

В треки интегрирована звуковая вотермарка, которую не слышит пользователь, позволяющая определить, что аудио сгенерировал ИИ.

🎙 Project Sound Lift от Adobe Редактор позволяет разбить практически любое аудио на несколько дорожек, которые можно редактировать по отдельности. С помощью Sound Lift можно убрать весь или определенный фоновый шум с записи (можно выбрать, например, аплодисменты и смех) и улучшить качество записи. Сервис находится на стадии тестирования.

🗣 Salute Speech от Сбера Сервис от российской компании может распознавать речь, переводить ее в текст и наоборот — синтезировать речь из текста. Модель корректно расставит в аудио ударения, смысловые акценты и будет учитывать знаки препинаний. На выбор для генераций Salute Speech предлагает несколько голосов. Использовать предлагают, например, для озвучки контента и оптимизации работы колл-центров.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Сервис для генерации 3D Spline добавил поддержку Gaussian Splatting

Мы уже рассказывали про Spline — сервис, который позволяет сгенерировать 3D-объект по промпту прямо из браузера.

🔄 Теперь у сервиса появилась поддержка Gaussian Splatting — новомодная технология рендеринга, которая позволяет переносить в 3D «реальные» объекты.

🫰Gaussian Splatting можно считать альтернативой NeRF, но, как утверждают в Spline, более шуструю, без потери качества, а также легкую в настройке и использовании.

📷 Объект, который нужно отрендерить, можно снять через приложения Luma или Polycam, а затем в формате .ply перенести в Spline для редактирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Unity выпустили Muse — сервис с искусственным интеллектом для разработчиков игр

🎲 Создатели популярного игрового движка (вокруг которого недавно был большой скандал) выпустили сервис для генерации различных ассетов для игр с помощью ИИ.

Muse анонсировали еще летом, но доступен он стал только сейчас за $30 в месяц.

☝️ Сервис со встроенным чат-ботом умеет генерить программный код и давать советы, создавать 2D-спрайты и текстуры по заданным параметрам.

Unity успокаивают, что вся информация в датасетах, на которых обучены ИИ-модели, принадлежит или лицензирована компанией. Так что внезапного иска после выхода игры можно не опасаться 😮‍💨.

Без Stable Diffusion, впрочем, дело не обошлось. Нейросеть пригодилась при генерации синтетической информации для датасетов.

📆 В ближайшем будущем Unity обещает добавить в Muse no-code инструменты для анимации объектов и программирования поведения NPC в игровом мире.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Альтман, или туда и обратно: что нужно знать о скандале вокруг увольнения и возвращения главы OpenAI

17 ноября совет директоров OpenAI объявляет, что Сэм Альтман уволен с должности гендира. Его пост должна занять технический директор Мира Мурати. Уход Альтмана объясняют тем, что он был недостаточно откровенен в своей коммуникации с советом директоров, мешая правлению выполнять обязанности.

Реальной причиной мог стать давний конфликт между Альтманом и правлением по поводу безопасности ИИ. Альтман хотел сделать из OpenAI многомиллиардную компанию, а правление — больше времени уделять оценке потенциальных рисков ИИ.

Об увольнении Альтмана в последний момент узнал не только сам Альтман, но и Сатья Наделла — глава Microsoft, крупнейшего инвестора OpenAI.

Наделла после увольнения Альтмана ведет переговоры о его возвращении на пост. Альтман якобы согласен вернуться, но при условии, что совет директоров распустят.

Переговоры о возвращении Альтмана заканчиваются ничем. OpenAI начинают поиски нового главы компании (третьего за несколько дней), так как Мурати публично поддержала уволенного Альтмана. 20 ноября CEO становится сооснователь Twitch Эммет Шир.

Наделла объявляет, что Альтман и сотрудники, которые ушли с ним, теперь будут работать в Microsoft. По словам Наделлы, у Альтмана будет своя лаборатория по разработке ИИ. Речи о разрыве отношений Microsoft и OpenAI не идет.

20 ноября 505 сотрудников OpenAI подписывают коллективное письмо, в котором угрожают уйти из компании, если Альтмана не вернут. Среди подписавшихся — ключевой сотрудник, член совета директоров и один из основателей OpenAI Илья Суцкевер. Суцкевер был одним из тех, кто увольнял Альтмана всего несколько дней назад, но теперь он извинился за свое решение.

21 ноября OpenAI объявляет о возвращении Альтмана. Вместе с ним вернется Грег Брокман — еще один основатель OpenAI, который ушел из компании в знак протеста. Совет директоров компании обновят и расширят с 6 до 9 человек. В OpenAI проведут внутреннее расследование произошедшего.
🤯7
Meta* выпустила две новые EMU-модели

🆕 EMU — это совсем новая базовая модель от компании Марка Цукерберга для генерации изображений. На основе EMU работают многие генеративные инструменты, а теперь еще и две новых нейросети:

🎞 EMU Video генерирует видео в высоком качестве по текстовой подсказке, исходному изображению или изображению и промпту. EMU Video генерирует 4-секундные клипы в разрешении 512*512.

✂️ EMU Edit позволяет редактировать изображение, используя только промпт. Модель может изменить отдельные детали на изображении, а может заменить фон, изменить цветовую палитру или даже геометрию предметов на иллюстрации. Та часть изображения, которая не указана в промпте, всегда остается нетронутой. Открытым остается вопрос, удобнее ли использовать промпт, чем выделение мышкой области, которую нужно отредактировать.

🫡 Попробовать сейчас можно только EMU Video — но только комбинируя изображения и промпты, подобранные разработчиками.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Создатели Stable Diffusion представили первую модель для генерации видео

Stable Video Diffusion — это первый для Stability AI выход на поле видеонейронок 🦶.

📹 Image-to-Video модель существует в двух вариантах: для генерации клипов с 14 фреймами и 25 фреймами в разрешении 576*1024.

На тестах, которые проводили сами Stability, пользователи предпочли генерации их нейросети генерациям от Runway и Pika. Кое в чем модель проигрывает конкурентам: генерации могут быть 4 секунды максимум, движение камеры в генерациях фактически отсутствует, модель плохо справляется с лицами людей 😢.

Код модели можно найти на GitHub, чтобы попробовать Video Diffusion в веб-интерфейсе придется встать в очередь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🎳 К Gaussian Splatting добавили физику объектов

Мы уже упоминали Gaussian Splatting, когда рассказывали про обновление сервиса Spline.

🇨🇳✖️🇺🇸 Умельцы из университетов США и КНР смогли прикрутить к способу рендеринга еще и реалистичную физику. Реалистичной ее называют сами исследователи, но по примерам можно увидеть, что это скорее пробный шар, чем готовая технология.

💧 PhysGaussian адекватно переносит в 3D жидкости, пластичные металлы и сыпучие материалы.

Потестить пока нельзя, код обещают скоро опубликовать на GitHub 🫡.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🏎 Скоростная text-to-3D модель

⌚️ MetaDreamer (никакого отношения к Meta* не имеет) сгенерирует трехмерный объект по промпту в несколько раз быстрее конкурентов.

🗡 Разработчики объясняют, что такой эффективности удалось добиться благодаря разделению процесса генерации на два этапа: на первом этапе нейросеть работает над геометрией заданного объекта, а на втором — «допиливает» его детали.

Такая оптимизация позволяет модели генерировать 3D за 20 минут. Если вам кажется, что это долго, то у конкурентов, с которыми разработчики MetaDreamer сравнивают свою модель, уходит на это гораздо больше 🏃‍♀️.

Гугловский DreamFusion будет генерировать 3D-объект около часа, а модель ProlificDreamer — семь часов 💤.

Самому убедиться в скорости MetaDreamer не получится, так что придется верить на слово.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤯1
Adobe купил первый генеративный стартап, новые подробности увольнения Сэма Альтмана, Runway запустил круглосуточный канал нейровидео — и другие важные новости за неделю

Новые детали про увольнение и возвращение Сэма Альтмана в OpenAI. The Information пишет, что незадолго до увольнения Альтмана, команда разработчиков стартапа объявила о серьезном прорыве в работе алгоритма Q*(Q-Star). Якобы Q* научился решать математические задачи, которые до этого ему не встречались. На фоне этого обострился конфликт внутри компании, связанный с безопасностью разрабатываемых моделей, а вслед за этим Альтмана уволили;

Фотоконкурс World Press Photo Contest изменил правила использования ИИ в конкурсных работах. Во-первых, он запретил выдвигать изображения, сгенерированные ИИ, в каких-либо номинациях. Этому решению предшествовал мини-скандал: организаторы было разрешили участвовать сгенерированным фото в номинации Open Format, но словили столько хейта, что быстро отказались от идеи. Во-вторых, убрать шумы с фотографии с помощью ИИ можно, а вот использовать Generative Fill и его аналоги — нет. Полностью правила можно почитать здесь;

Adobe впервые приобрел генеративный стартап. Им стала индийская компания Rephrase, которая разрабатывает text-to-video модели. Теперь разработки Rephrase станут частью инструментов Adobe. Официально о сделке пока не объявляли;

Runway запустил круглосуточный канал с видео, созданными с использованием генеративных нейросетей. Пользователи могут предложить в эфир свои работы, но при условии, что клип длится дольше 30 секунд;

Nvidia вновь заработала тонну денег благодаря спросу на ИИ. Квартальная выручка компании по сравнению с годом ранее подскочила аж на 206% и составила $18,1 млрд. По собственным прогнозам Nvidia, выручка за финансовый год составит $59 млрд — больше, чем за два предыдущих года вместе взятых;

Гугловский чат-бот Bard научился детально анализировать видео на YouTube и пересказывать их пользователю. Теперь не нужно смотреть видео с рецептами блюд — можно просто попросить Bard пересказать его;

Стартап Inflection выходцев из LinkedIn и DeepMind анонсировал новую LLM Inflection-2. Разработчики скромно называют языковую модель лучшей в своем классе и второй по возможностям в мире. На первом — GPT-4. На Inflection-2 скоро будет работать разработанный стартапом чат-бот Pi;

Эминем 29 ноября выступит в Fortnite до ивента Big Bang (это что-то типа нового сезона в игре). Перед концертом фанаты рэпера смогут приобрести тематические скины для игры. В 2020 году на виртуальном концерте Трэвиса Скотта по тому же случаю присутствовало больше 12 млн игроков;

МТС тестирует платформу Рой 9 для обучения нейросетей с использованием мощностей сторонних (например, пользовательских) устройств. На Рой 9 уже обучаются несколько нейросетей. В МТС говорят, что разработка нужна только для внутреннего использования и публичного запуска не планируется;

Сбер выпустил третью версию нейросети Kandinsky, а также представил Kandinsky Video — модель, которая может генерировать клипы длиной до восьми секунд. Video обучали на 300 тыс. пар текст-видео (для сравнения, Gen-2 — на 6,4 млн видео), но разработчики уверяют, что это только начало.
4👍1
⌨️ DeepMind рассказал о новом методе промпт-инжиниринга

Исследователи компании выпустили работу, посвященную методу, который они назвали Step Back-промптинг 🦶.

Его суть заключается в том, что для улучшения точности ответа ИИ-модели, ей стоит сначала задать общий вопрос на тему, а в следующих вопросах конкретизировать задачу .

🏫 Например, пользователь хочет узнать, в какую школу с августа по ноябрь 1954 года ходила американская исследовательница Эстелла Леопольд. Для более точного ответа ИИ лучше сперва спросить о том, в каких вообще учебных заведениях обучалась Леопольд, и только потом конкретизировать временной период.

Это позволяет LLM не «отвлекаться» на ненужные подробности и четко следовать задаче.

🧠 Авторы работы протестировали метод на языковых моделях PaLM-2L и GPT-4. По сравнению с распространенным методом промптинга Chain of Thought (CoT), точность языковых моделей в отдельных случаях выросла на 36%. При использовании CoT LLM просят подробно описать последовательность шагов, которую она делала на пути к правильному ответу.

Наиболее значительные результаты Step Back-метод принес при решении сложных задач. Так, в вопросах химии и физики прирост составит от 7% до 11%. Занятно, что в некоторых примерах PaLM-2L с использованием Step Back-метода оказался почти на 30% точнее GPT-4, с которой такой промптинг не использовался ⬆️.

В DeepMind признают, что их метод не способен заменить все остальные. Например, он бесполезен, если вопрос касается общеизвестных фактов или вопросов, касающихся абстрактных понятий (например, скорости света) 💡.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
MoveAI + MetaHuman = 😮

Мы уже рассказывали про mocap-инструмент Move AI, который при наличии у пользователя айфона создает впечатляющую анимацию. И про MetaHuman тоже упоминали — это приложение, которое позволяет создавать реалистичные аватары на Unreal Engine 😘 .

🤝 Теперь Move AI показывает, на что способна их разработка в связке с MetaHuman. Британский стартап утверждает, что таких результатов, как на видео, можно достичь с одним единственным айфоном (или айпадом).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1