D. Lab – Telegram

D. Lab

1.08K subscribers

503 photos

499 videos

1 file

900 links

Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.

Download Telegram

About

Blog

Apps

Platform

1.08K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🎮

Google показал нейросеть для генерации игровых миров

Genie (Generative Interactive Environments) позволяет генерировать интерактивное окружение из нейроизображений, фотографий, набросков.

🎞 Модель тренировали на большом датасете видео, находящихся в открытом доступе, с упором на клипы из игр-платформеров, а также видео, где робототехника взаимодействует с различными объектами.

🤝 Универсальность Genie позволяет ей использовать генерации, созданные другими нейросетями для создания виртуального окружения. В качестве примера авторы показали работу Genie с гугловской нейросетью Imagen.

🗣 Разработчики также говорят, что в будущем Genie подойдет для создания ИИ-агентов, которые смогут взаимодействовать с окружением, созданным человеком, а не нейросетью. Модель для этого можно тренировать на ее же генерациях.

Недавно мы рассказывали, как энтузиаст сделал ремейк Angry Birds с помощью нейросетей. Для этого ему понадобились сразу три модели.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

558 views14:25

This media is not supported in your browser

VIEW IN TELEGRAM

💋

Генерации Pika получили липсинк

🔈 Теперь в видеогенерации Pika можно добавлять синтетический голос с помощью модели ElevenLabs. Также можно загрузить свой аудиофайл.

💬 Сгенерированные персонажи при этом изо всех сил будут стараться открывать рот синхронно с произносимым текстом.

Функция пока запущена в тестовом режиме. Pika добавили такую возможность первыми среди конкурентов 💪.

Попробовать липсинк пока могут только платные подписчики Pika.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

492 viewsedited 15:45

💵

Конкурент GPT Store для обмена чат-ботами получил $10 млн

🫴 FlowGPT позволяет пользователем создавать свои чат-боты (здесь их называют ИИ-приложения) на основе готовых LLM-моделей, а затем делиться ими с другими пользователями.

Все как у GPT Store.

☝️ Но есть и отличия. Например, FlowGPT позволяет работать с разными моделями (GPT, Gemini, Claude, Llama и другие). Правда, за использование некоторых моделей придется доплатить.

❗️ Под ИИ-приложениями не стоит понимать приложения как в AppStore. По сути, пользователи FlowGPT обмениваются промптами для настройки GPT-моделей под определенные задачи.

FlowGPT также позволяет пользователям поблагодарить авторов за их работу «чаевыми». В GPTStore монетизацию пока не запустили.

👥 Разработчики хотят построить открытую экосистему, где маркетплейс будет лишь одним из элементов, а важную роль будет играть комьюнити вокруг платформы.

🫢 Но есть и проблемы. Как и в случае с GPT Store, кастомные чат-боты, которые появляются в магазине, плохо модерируются. Из-за этого большое количество ИИ-приложений — это в лучшем случае LLM с отключенными ограничениями, а в худшем — генераторы вредоносных приложений.

Тем не менее FlowGPT удалось привлечь от инвесторов $10 млн. Деньги потратят на доработку инфраструктуры платформы.

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍2

552 views12:05

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🗣 Alibaba показал генератор говорящих аватаров

EMO позволяет анимировать фотографию человека и добавить аватару аудиодорожку на разных языках.

💬 На выходе получается говорящая голова, которая с впечатляющим липсинком произносит любой текст.

В качестве одного из примеров разработчики анимировали девушку, которую, в свою очередь, сгенерировала Sora (первое видео в подборке).

😮 Только вчера мы сдержанно хвалили липсинк от Pika, но EMO выглядит, пожалуй, эффектнее: аватар не только попадает в аудио, но и обладает реалистичной мимикой, передающей эмоции (поэтому и EMO).

🛑 Но нейросеть от Alibaba пока недоступна для тестирования.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔2🔥1

580 views15:45

This media is not supported in your browser

VIEW IN TELEGRAM

🎼

Adobe сделал прототип музыкального редактора с ИИ

Программа с длинным названием Project Music GenAI Control позволяет по промпту сгенерировать музыкальный трек, а затем отредактировать его в том же интерфейсе. Сам интерфейс при этом не показывают, потому что его пока просто нет 🤷‍♀️.

🏆 Встроенный редактор — это, пожалуй, главное отличие инструмента Adobe от похожих нейросетей, которые выпускали, например, Meta* и Google.

GenAI Control также может сгенерировать трек по мелодии-референсу или расширить исходный фрагмент до полноценного трека.

🗣 Большой пробел в возможностях GenAI Control — отсутствие генерации вокала и текстов, которые есть, например, у Suno.

📆 Пока GenAI Control находится на стадии прототипа и даты релиза у нее нет даже приблизительной.

*Организация, запрещенная на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

559 views10:05

😈 В дарквебе продают «плохие» чат-боты для хакеров

В «параллельном» интернете нашли около 200 сервисов, которые помогают использовать чат-бот для вредоносной активности.

🔩 В большинстве случаев речь идет о донастроенных опенсорс-моделях вроде Llama, но также это могут быть взломанные «закрытые» LLM, такие как GPT (одна из его «темных» версий называется BadGPT).

💵 ИИ-сервисы для хакеров стоят от $5 до $199 в месяц.

☝️ Взломанные модели хакеры используют для быстрого написания фишинговых имейлов, создания фейковых сайтов и вредоносных программ, а также для имперсонации топ-менеджеров с целью мошенничества. В качестве примера последнего можно вспомнить историю банковского служащего из Гонконга, который перевел больше $25 млн дипфейкам.

В общем, хакеры успешно используют все возможности современных LLM, которые разработчики обычно рекламируют как главные фичи своих моделей.

🇫🇷 Интересно, что в качестве самой «удобной» LLM для генерации почтового скама эксперты называют опенсорсную модель Mixtral от французского стартапа Mistral. Mixtral из-за особенностей архитектуры после дополнительной настройки справляется с хакерскими задачами лучше аналогов.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🤔2

574 views14:15

Маск подал в суд на OpenAI, ИИ войдет в совет директоров, New York Times обвинили во взломе ChatGPT — и другие важные новости за неделю

✅Илон Маск подал в суд на OpenAI — стартап, в создании которого он когда-то принимал участие. Глава Tesla считает, что OpenAI слишком далеко ушли от свое изначальной миссии — разрабатывать ИИ на благо человечества, а не для получения прибыли. В иске Маск требует от OpenAI выложить все исследования и технологии компании в открытый доступ;

✅ Disney даст денег сразу пяти ИИ-стартапам. В рамках программы Disney Accelerator инвестиции получат ElevenLabs, AudioShake, Status Pro, Nuro, Promethean AI. Все они занимаются генеративным аудио;

✅ Крупнейшая в Абу-Даби компания International Holding ввела в совет директоров в качестве наблюдателя искусственный интеллект. В переводе это означает, что Aiden Insight (так называется ИИ-помощник) будет 24/7 анализировать экономическую и бизнес-информацию, предлагать совету директоров компании различные стратегические решения;

✅ VK разработал языковую модель, частично обученную на комментариях пользователей в группах во ВКонтакте. Новую LLM тестируют в принадлежащем VK Mail.ru — генеративные возможности добавили в почту и календарь;

✅ OpenAI обвинил New York Times (NYT) во «взломе» ChatGPT. Взлом заключается в том, что NYT якобы наняли специального человека, который долго вводил в чат-бот однотипные промпты, с целью заставить ChatGPT «сгаллюцинировать» фейковые статьи газеты. NYT в конце прошлого года подал иск к OpenAI, который грозит стартапу серьезными последствиями;

✅ Google платит изданиям за тестирование новой модели для генерации новостного контента. В обмен на пятизначную сумму участники тестирования должны в течение года публиковать у себя фиксированное количество текстов (три заметки в день), сгенерированных моделью по заданным источникам. Предполагается, что такая нейросеть будет полезна изданиям с небольшим штатом сотрудников;

✅ Amazon инвестирует $1 млрд в стартапы, которые занимаются интеграцией ИИ в роботов. Для этих целей компания создала отдельный инвестиционный фонд. Amazon крайне заинтересован в умных роботах для усовершенствования своей логистической инфраструктуры;

✅ Meta* планирует этим летом выпустить третью версию свой опенсорсной LLM Llama. Одна из основных задач, стоящих перед разработчиками, — сделать модель более «разговорчивой». Llama 2 периодически отказывалась отвечать даже на безобидные запросы. При этом компании надо соблюсти баланс, чтобы нейросеть не сгенерировала что-нибудь незаконное.

*Организация, запрещенная на территории РФ

🔥5👍3

517 views09:00

Кадр из ремейка Дома у дороги

🗣 Amazon обвинили в незаконном клонировании голосов

📝 Сценарист Р. Лэнс Хилл считает, что Amazon и MGM использовали нейросети для клонирования голосов в ремейке фильма Дом у дороги 1989 года. Хилл написал сценарий для оригинального фильма.

Хилл утверждает, что в ноябре 2023 года у MGM (а значит, и у Amazon, которому принадлежит MGM) закончились права на сценарий, который он написал. По словам Хилла, он заранее сделал все необходимые действия, чтобы вернуть себе права на сценарий, но Amazon его просто проигнорировал 🫤.

⏱ Более того, чтобы побыстрее закончить работу над ремейком триллера, компания в период забастовки голливудских сценаристов и актеров якобы использовала нейросети для клонирования голосов. Несмотря на ухищрения, закончить работу до истечения сроков копирайта Amazon не удалось — продакшн завершился только в январе 2024 года.

🤖 Хилл отмечает, что Amazon и MGM не только нарушили его авторские права, но и договоренности, которые были достигнуты между сценаристами, актерами и крупными киностудиями. Договоренности ограничивали возможности использования ИИ на кинопроектах.

❔ Официального комментария от Amazon не было, но знакомые с ситуацией утверждают, что генеративный контент в финальную версию фильма не вошел. Даже если так, то вопрос с правами Хилла на его сценарий остается открытым.

Please open Telegram to view this post

VIEW IN TELEGRAM

559 views14:25

🧑

➡️

🤖 ИИ заменил компании 700 работников

🌤 Финансовый сервис Klarna начал 2023 год с убытков, но к концу года смог выйти в прибыль и даже готовится провести IPO.

🔩 Причина успеха — использование сервисов OpenAI. ChatGPT появился в приложении Klarna и теперь помогает пользователям оформить возврат, дает финансовые советы, обрабатывает запросы неанглоязычных пользователей и т. д.

⏱ Время на обработку одного запроса сократилось с 11 минут до двух, при этом пользователи остаются одинаково довольны после общения с ИИ, как и при общении с живым сотрудником техподдержки.

💪 В пресс-релизе компании говорится, что в первый же месяц чат-бот отработал 2,3 млн пользовательских запросов (около ⅔ от общего количества). Чтобы справиться с таким количеством запросов, в обычной ситуации компании нужно около 700 сотрудников. Это позволило Klarna изменить свою стратегию рекрутинга — проще говоря, сэкономить на найме.

🔽 По итогам прошлого года штат Klarna сократился на четверть, но в компании утверждают, что это не связано с ChatGPT.

💵 По прогнозам компании, чат-бот по итогам года может принести Klarna дополнительные $40 млн прибыли.

Please open Telegram to view this post

VIEW IN TELEGRAM

588 views12:05

This media is not supported in your browser

VIEW IN TELEGRAM

🏃‍♂️

Скоростная и экономичная модель для генерации 3D

TripoSR позволяет по одному изображению объекта (генерации нейросетей тоже подходят) менее чем за секунду сгенерировать его 3D-версию*.

*при условии использовании чипа Nvidia A100

Чтобы достичь такой скорости, разработчики вдохновлялись методом LRM, при котором модель уже по исходному изображению до непосредственно генерации «предсказывает» его NeRF-версию 🔮.

😱 Оптимизация Image-to-3D модели позволяет ей работать даже без GPU (но иногда на выходе можно получить вот такого щеночка). Попробовать нейросеть можно здесь.

🤝 TripoSR — совместная разработка стартапа Tripo и разработчиков Stable Diffusion — Stability AI.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

596 views07:45

📚 Сервис, который ищет бестселлеры с помощью ИИ

Литературная платформа Inkitt позволяет любому бесплатно опубликовать свое произведение и уже привлекла больше 30 млн пользователей.

В последнее время сервис активно развивает ИИ-возможности платформы.

🤖 Нейросети и Data-аналитика помогают найти потенциальные бестселлеры, которые затем можно будет продавать за деньги читателям (на другом сервисе команды — Galatea), а в случае с самыми успешными — еще и продать права на экранизацию.

📺 Кстати, экранизации уже были, но вряд ли вы что-то слышали про сериал «Прекрасная ошибка».

Для поиска хитов ИИ анализирует не только отзывы пользователей, но и содержание самиздата: сюжет, персонажи, стиль, даже эффективность первых предложений (сразу ли они увлекают читателя) и наличие клиффхэнгеров 💣.

💵 Недавно сервис получил $37 млн от инвесторов, которые также планируют вложить в развитие ИИ-возможностей платформы. Например, Inkitt в будущем сможет развить идею в полноценную историю; генерировать несколько версий произведения, чтобы угодить читателям с разными интересами; создавать генеративный видеоконтент, который будут публиковать на Galatea TV.

🤴 Своей целью Inkitt ставят стать «Disney XXI века».

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🤔2

532 views12:45

В Китае раздают ИИ-ваучеры, Meta* отказала Google, Мадонна использует нейросети — и другие важные новости за неделю

✅ Один из основных конкурентов Open AI, стартап Anthropic, представил третью версию своего чат-бота и набор ИИ-моделей под общим названием Claude 3. Разработчики дежурно заявляют, что их модели в бенчмарках показывают лучшие результаты, чем GPT и Gemini. Чат-бот при этом может обработать текст длиной 150 тыс. слов против жалких 3 тыс. у ChatGPT;

✅ Meta* отказалась от партнерства с Google в разработке XR-хедсетов. Google предлагал Meta использовать операционную систему Android XR в хедсетах вместе ОС Quest, которая устанавливается на них сейчас. В обмен Google обещал открыть доступ ко всем своим основным приложениям (Meta давно пытается этого добиться). В итоге компания Цукерберга отказалась от предложения, посчитав его неравноценным;

✅ Apple получил от Евросоюза штраф на €1,84 млрд после жалобы Spotify, поданной еще в 2020 году. Стриминг-сервису не понравилось, что Apple запрещает рекламировать более дешевые варианты подписки, если они оформляются не через App Store. Европейские регуляторы признали такую практику нарушением антимонопольного законодательства;

✅ Китайские власти предлагают небольшим ИИ-стартапам ваучеры на сумму до $280 тыс. Деньги можно потратить на оплату вычислительных мощностей для работы и обучения своих ИИ-моделей. Запустить программу с ваучерами пришлось после американских санкций, которые вынудили владельцев облачных серверов отказываться от договоренностей с ИИ-компаниями, чтобы использовать ограниченные мощности для своих нужд и для «ключевых клиентов»;

✅ Мадонна начала использовать генеративный ИИ на своих концертах. Во время исполнения отдельных песен на концерте видеоряд для них генерирует нейросеть Gen-2 от Runway. По словам людей, которые режиссируют концерты Мадонны, Gen-2 справилась с задачей лучше, чем CGI: компьютерная графика не понравилась певице, так как выглядела кринжово и «мертво»;

✅ Впечатлившись демонстрацией Sora, китайцы решили сделать свою версию модели — но с открытым кодом и с возможностью быстрого масштабирования. Результатов работы Open Sora почти никаких, пока идет набор в команду разработчиков;

✅ Apple выпустила iOS 17.4, в которой появилась возможность установки приложений из сторонних магазинов приложений. Доступно только пользователям в ЕС, остальным остается надеяться, что кто-то придумает, как обойти региональные ограничения;

✅ После иска Илона Маска к OpenAI создатели ChatGPT опубликовали имейлы, из которых следует, что Маск был совсем не против, чтобы OpenAI зарабатывала деньги. Глава Tesla также предлагал привлечь «миллиарды» инвестиций, чтобы иметь возможность конкурировать с Google (хотя сейчас Маск критикует OpenAI за миллиардные инвестиции от Microsoft). Просчитался, но где…

*Организация, запрещенная на территории РФ

👍5

547 views09:00

☠️

Промпт-инжиниринг мертв?

Профессия, которая еще год назад считалась одной из самых перспективных, к началу 2024 года, кажется, умерла, так и не успев толком родиться.

Как раз об этом вышла статья в журнале Spectrum, который издает IEEE — американский Институт инженеров электротехники и электроники.

🤖 На смену промпт-инжинирингу приходит ИИ промпт-инжиниринг — оказалось, что генеративные модели справляются с написанием текстовых подсказок лучше, чем люди. Просто попросить модель написать оптимальный промпт — принесет более качественные результаты, чем метод проб и ошибок, который используют люди.

🔩 Для оптимизации используются инструменты (например, DSPy), которые за несколько итераций, используя специальные бенчмарки, подберут наиболее эффективные промпты для конкретной модели. У ИИ подбор иногда занимает до 10 раз меньше, чем у человека.

🖼 Это касается как LLM, так и нейросетей, которые генерируют изображения. Например, в Intel Labs придумали программу NeuroPrompts, которая самостоятельно расширяет примитивный промпт для Stable Diffusion в продвинутый, чтобы получить детализированную картинку.

🧑 Исследователи отмечают, что людям в написании эффективных промптов мешает излишнее «очеловечивание» ИИ-модели — пользователь вольно или невольно исходит из ошибочного предположения, что нейросеть мыслит как человек и «говорит» на его языке.

🌞 Тем не менее совсем хоронить промпт-инженеров не стоит, считают отдельные эксперты. Эти специалисты будут заниматься не профессиональным придумыванием текстовых подсказок, а скорее настраиванием/масштабированием моделей под определенные нужды. Такие профессионалы, по сути, будут операторами ИИ-моделей, одной из задач которых в каком-то виде может быть и промпт-инжиниринг.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥3🤔2😁1

558 views09:55

🆕

Новая генеративная нейросеть — на этот раз от Huawei

Pixart-Σ генерирует изображения сразу в 4K. Это уже вторая версия нейросети. По сравнению с предыдущей версией (Pixart-α), Σ точнее следует промпту и генерирует картинки более высокого качества 💪.

Пожалуй, наиболее интересной особенностью разработки Huawei является модель, на которой она работает — диффузионный трансформер (DiT). Ее также используют недавно анонсированная Stable Diffusion 3 и уже ставшая полумифической Sora 👑.

Главным отличием диффузионных моделей на основе DiT является иной принцип шумоподавления, — трансформер вместо сверточной сети (U-net), — архитектура, которая ускоряет работу нейросети, обрабатывая больше информации. Именно благодаря ей генерации Sora выглядят настолько круче конкурентов 😮.

Генерации Pixart-Σ, конечно, такого эффекта, как видео от Sora, не производят, но и основным конкурентам не уступают.

📆 Код обещают выложить до начала апреля, пока здесь можно потестить предыдущую версию Pixart.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔3❤2👍2

586 views14:15

This media is not supported in your browser

VIEW IN TELEGRAM

🤖

💬

Стартап, который разрабатывает «ChatGPT для роботов»

▶️ Covariant запустил платформу RFM-1 (Robotics Foundational Model-1), которую в компании называют LLM для роботов. Стартап основали трое выходцев из теперь уже закрытого подразделения OpenAI, работавшего с робототехникой.

RFM обучена на большом объеме данных, полученном от складских роботов Covariant, которые последние четыре года работают «в поле».

🔩 Пока мультимодальная LLM с 8 млрд параметров позволяет роботам эффективно работать на складах, но Foundational в названии модели неспроста — это значит, что ее можно обучать дальше, чтобы выполнять задачи, для которых RFM изначально не разрабатывалась.

🚜 Стартап хочет, чтобы модель использовали в сельском хозяйстве, пищевой промышленности, переработке отходов, а также в обычных домах и квартирах.

Уже сейчас роботы с RFM на борту могут взаимодействовать с предметами, которые они ни разу до этого не видели. Интерфейс для управления машинами похож на обычного чат-бота, которому можно написать команду, произнести ее голосом, загрузить изображение или видео ⌨️.

🔮 Также модель может работать и как симулятор — RFM способна просчитать, как поведет себя механизм (необязательно робот) при определенных обстоятельствах и сгенерировать соответствующее видео или изображение.

В планах Covariant превратить RFM в что-то типа Windows для роботов — универсальную систему, установленную в миллионы машин по всему миру. Соответственно, чем больше роботов будут использовать модель, тем больше информации получит Covariant (при согласии пользователей) и тем совершеннее будет становиться RFM 💪.

⚠️ Сейчас система все еще достаточно часто совершает ошибки, когда сталкивается с совсем незнакомой ей ситуацией.

💵 Интеграция ИИ в роботов одна из самых модных тем: недавно Amazon объявил, что раздаст $1 млрд стартапам, работающим в этой области.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

723 views11:35

👥 В Midjourney теперь можно создавать генерации с собственными персонажами

Функция Character Reference позволяет создавать одинакового персонажа на каждом из серии сгенерированных изображений.

Чтобы воспользоваться новой возможностью, потребуется несколько шагов:

1️⃣ Как обычно сгенерировать персонажа с помощью промпта;

2️⃣ Выбрать из четырех предложенных генераций тот вариант, который в дальнейшем будет основным;

3️⃣ Для следующей генерации в промпте необходимо прописать — cref; ссылку на изображение, которые пользователь выбрал основным; параметр cw (character weight) со значением от 0 до 100 (где 100 — это персонаж максимально похожий на себя из предыдущей генерации).

☝️Работает для изображений, созданных через Discord-сервер Midjourney

Новая функция важна, так как позволяет использовать Midjourney как профессиональный инструмент для создания, например, концепт-арта видеоигры или фильма 🧑‍🎨.

🔩 Пока Character Reference работает не идеально. Глава Midjourney Дэвид Холц отметил, что 100% сходства между генерациями нет. Нейросеть не перенесет точь-в-точь на следующее изображение веснушки персонажа или, скажем, логотип на футболке.

Нельзя сказать, что Midjourney совершили революцию — тот же InstantID или Reactor для Stable Diffusion умеют примерно то же самое. Но как сервис возможность воспроизведения персонажа есть пока только Midjourney

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤3👎1

534 viewsedited 15:50