D. Lab
1.1K subscribers
503 photos
499 videos
1 file
900 links
Цифровая лаборатория Газпром-Медиа Холдинга — R&D, коллаборация, поиск точек роста.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🤟 KISS продолжат давать концерты только в виде аватаров

💵 Группа отыграла последние концерты прощального тура End of the Road, но перестать зарабатывать деньги радовать фанатов не хочет.

Музыканты объявили, что гастрольную деятельность за них продолжат цифровые аватары. Над их созданием работали мастера спецэффектов из Industrial Light & Magic (ILM) (посмотрите список фильмов, над которыми они работали) 🤹.

🚶‍♂️ ILM не раскрывают подробности создания аватаров, но упоминают некую продвинутую систему захвата движения, которая работала вместе с алгоритмами машинного обучения. Как это выглядит вживую, можно посмотреть здесь. Использование аватаров позволит проводить несколько концертов одновременно, даже в разных странах.

Организацией шоу будут заниматься Pop House Entertainment, которые уже возили в тур цифровые аватары ABBA. Концерты ABBA приносили около $2 млн в неделю 🤑.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
ИИ лучше работает за деньги, суд в Китае разрешил защищать генерации копирайтом, OpenAI отложил запуск маркетплейса — и другие важные новости за неделю

ИИ будет работать эффективнее, если предложить ему денег, выяснили в соцсети X. Оказалось, если пообещать GPT-4 $20, то ИИ выдаст более развернутый ответ, чем без «чаевых». В этом случае количество знаков в ответе выросло на 2% — с 2 949 до 3 223. Если же пообещать ИИ $200, то «прибавка» составит 6% и ответ будет состоять уже из 3 360 знаков;

OpenAI отложила запуск маркетплейса кастомных чат-ботов GPT Store до начала следующего года. В официальной рассылке компания сообщила, что собиралась запустить площадку в декабре, но помешали непредвиденные обстоятельства. И мы догадываемся, что это были за обстоятельства;

И еще про OpenAI: компания собирается закупить чипов на $51 млн от стартапа Rain, как только они будут готовы. Все бы ничего, но глава OpenAI Сэм Альтман — инвестор Rain (офисы 2-х компаний даже расположены по соседству). На лицо конфликт интересов, но в OpenAI утверждают, что договоренность подписали 4 года назад, и она касалась только дальнейших переговоров, а не непосредственно закупок. Rain разрабатывает процессоры, имитирующие работу человеческого мозга, которые якобы в 100 раз производительнее, чем GPU;

Суд в Пекине решил, что изображения, сгенерированные нейросетью, могут быть объектом копирайта. В качестве предмета спора рассматривалось изображение, сгенерированное с помощью американской нейросети Stable Diffusion. Китайский суд решил, что придуманного промпта достаточно, чтобы признать пользователя автором изображения. Блогера, без разрешения использовавшего чужую генерацию, обязали выплатить чуть больше $70;

Meta* обучила новую нейросеть на 1,1 млрд фото, опубликованных в Facebook** и Instagram***. Модель используется в новом сервисе Imagine With Meta AI. Компания придумала хороший способ избежать претензий за использование чужого контента: то, что находится в соцсети в публичном доступе, компания может использовать, не боясь иска. Можно попробовать закрыть доступ к своим публикациям, но ведь модель уже обучили, так что смысла в этом не много;

Илон Маск хочет получить от инвесторов $1 млрд на свой ИИ-стартап X.AI. Пока из заявленной суммы удалось собрать только $135 млн. В описание стартапа, кстати, говорится, что он стремится познать «настоящую природу вселенной». Так вот для чего нужен Grok;

Microsoft готовит на 2024 год новую версию Windows, заточенную под ИИ. Проект под кодовым названием Hudson Valley будет работать на ОС Germanium (это тоже кодовое название). Germanium тоже выйдет в следующем году. Одной из основных фич Hudson Valley должен стать продвинутый ИИ-помощник, встроенный в ОС;

Один из исследователей ByteDance у себя в X намекнул, что компания может скоро выпустить ИИ-модель, которая будет готова конкурировать не только с Gemini, но и с GPT-5;

Создатели модели GEN-2 и фотоагентство Getty Images объединились для создания нейросети. Модель для генерации видео будут обучать на контенте из архивов Getty, поэтому пользователям не нужно будет бояться по поводу нарушения авторского права. Пару месяцев назад Getty уже запускало свою нейросеть, а еще раньше судилось со Stable Diffusion;

Meta* и IBM запустили международный альянс за разработку безопасного и ответственного ИИ. В организации уже есть 50 участников (компании, университеты, чиновники и др.). Вместе они будут разрабатывать стандарты безопасного ИИ, создавать умные модели для решения важных глобальных проблем, работать над образовательным контентом на тему ИИ и т. д;

МТС в режиме открытого бета-тестирования запустила свой ответ YouTube, VK и RuTube — видеоплатформу NUUM. Полноценный запуск намечен на следующий год, но у NUUM уже есть свое приложение, а на продвижение платформы подрядили популярных блогеров. Платформу интегрируют в экосистему МТС и добавят поддержку сервисов МТС Pay, МТС ID и других.

*Организация, запрещенная на территории РФ
*Instagram и Facebook входят в Meta — организацию, запрещенную на территории РФ
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
👎 Google показал фейковое видео о способностях Gemini

🔍 Для того чтобы это обнаружить, даже не понадобились коллективные навыки интернет-детективов. Google сам добавил дисклеймер к эффектному видео, которое показали на презентации.

😱 В 6-минутном ролике показаны примеры взаимодействия пользователя с LLM. Например, в начале видео пользователь кладет на стол лист бумаги, который Gemini корректно распознает. Дальше модель в реальном времени идентифицирует узоры, которые рисуют на бумаге, параллельно общаясь с пользователем голосом. Впечатляет!

Впечатляет, если не обращать внимания на описание видео на YouTube. В нем указано, что ролик отредактировали: убрали задержки, которые возникали, когда Gemini идентифицировал предметы. Ответы LLM специально сократили «для краткости» (то есть для того, чтобы они казались точнее). Более того, Google признал, что на самом деле Gemini анализировал фото, а не видео, да и общались с ним не голосом, а промптами 😐.

Остались недовольны и те, кто попробовал Gemini, интегрированную в поисковик Google. TechCrunch сделал длинную подборку ошибок, которые делает сервис: путается в фактах, ошибается в переводе с одного языка на другой, предлагает пользователям самим погуглить информацию, если ему чем-то не нравится тема; не может сгенерировать простейший код и т. д. 😵

Ситуация с презентацией Gemini теперь очень напоминает провальный анонс чат-бота Bard в начале года. Правда, тогда и Microsoft выступил ненамного лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
👤 Еще одна модель для анимации аватаров — на этот раз с гауссианами

Gaussian Head Avatar позволяет генерировать аватары с высокой детализированностью и возможностью точно контролировать выражение лица — все это в разрешении 2К (для подобных моделей это настоящий прорыв) 😢.

🫤 GAIA от Microsoft на фоне Head Avatar уже выглядит так себе. Код модели обещают опубликовать на GitHub.

🧪 Китайские исследователи не единственные, кто экспериментируют с гауссианами. Meta* тоже тестирует технологию, чтобы сделать свои Codec Avatars еще реалистичнее.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
🚬 Премиум-пользователи X получили доступ к Grok — анти-ChatGPT от Илона Маска

Маск несколько дней назад объявил, что Grok стал доступен всем премиум-пользователям в США, но предупредил, что чат–бот пока находится в бета-тесте.

Для тех, кто не в курсе, что такое Grok, и зачем он нужен: Илону Маску очень не понравилось, что чат-боты Google и OpenAI отказываются говорить на темы, которые могут кого-то оскорбить, и миллиардер решил сделать свой вариант — с блэкджеком и… ну, вы поняли 💃.

😂 В итоге, судя по первым отзывам, получился очень странный продукт. С одной стороны, непонятно кому нужен чат-бот, у которого чуть ли не главное отличие от конкурентов — чувство юмора (и, видимо, не то чтобы хорошее).

Кроме того, чат-бот вышел в откровенно сыром виде. Например, на некоторые запросы он отвечает, что не может их выполнить, так как это противоречит правилам использования Open AI. Вполне вероятно, что чат-бот, который должен был стать анти-ChatGPT, настраивали на информации, сгенерированной сервисом OpenAI 🤝.

😱 Кроме того, некоторые возмущенные пользователи заметили, что Grok оказался даже более политкорректным, чем ChatGPT. Илон Маск уже пообещал это исправить.

Единственным реальным преимуществом Grok пока можно назвать соцсеть X, которую он использует как датасет для обучения. Это позволяет чат-боту узнавать об актуальных новостях гораздо быстрее того же ChatGPT — и все равно не спасает его от выдумывания фейков 🤷‍♀️.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Создатели GEN-2 анонсировали нейросети, которые будут предсказывать будущее. Вроде бы

🤨 Runway рассказали про свой новый амбициозный проект General World Models (GWM). Получилось довольно путанно.

🌐 GWM — это универсальные модели, которые должны максимально приближенно к реальности симулировать окружающий нас мир и предсказывать возможные варианты развития разных событий.

🔩 Для этого модель будут тренировать на видео, тексте, изображениях и аудиоинформации. В пресс-релизе также упоминается разработка реалистичных моделей поведения людей.

Работать GWM должны по аналогии с LLM, но языковые модели «предсказывают» следующее слово или предложение (только текстовую информацию), а GWM будут работать в мультимодальном режиме 🎚️.

Разработчики говорят, что их модель GEN-2 — это мини-версия GWM, которая для генерации видео использует ограниченное, но все-таки понимание законов физики и движения. GWM должны будут делать что-то похожее, но масштабнее, а не в формате коротких клипов 🎞.

Из анонса непонятно, какая цель стоит перед GWM — развлекать или помогать. Ведь можно предположить, что такие модели могли бы предсказывать поведение людей и воздействие на окружающий мир в условиях, скажем, природных катаклизмов — особенно актуальной сегодня темы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👍2🤯2
😎 Meta* добавила мультимодальные возможности в свои умные очки

В раннем доступе для Meta Smart Glasses (созданных в коллаборации с Ray-Ban) появился ИИ-функционал. Теперь девайс будет не только реагировать на голос пользователя, но и полноценно использовать встроенные в очки камеры 📹.

👖🇪🇸 Марк Цукерберг опубликовал клип, в котором просит очки подобрать брюки к рубашке. Smart Glasses начинают работать после фразы Hey, Meta и дают подробный совет. В другом видео ИИ переводит «с листа» испанский мем на английский язык.

Надеемся, что это — реальное видео, а не то, что недавно показывал Google 🤦.

💬 Помимо модных советов, очки теперь смогут рассказать о предмете, который видит перед собой человек или, например, придумать подпись к фото, на которое смотрит пользователь. Кроме того, умные очки смогут отвечать на запросы пользователей, используя возможности поисковика Bing.

❗️ Новые возможности пока доступны только участникам программы Early Access в США.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🥚Tesla показала новую версию робота Optimus — он научился бережно обращаться с яйцами

Компания выпустила небольшой клип, где можно увидеть, как изменился робот по сравнению с предыдущей версией.

🏃‍♀️ Optimus Gen-2 стал быстрее и плавнее двигаться, а за счет новых датчиков и актуаторов он может взаимодействовать с хрупкими предметами. На видео Optimus бережно перекладывает яйца из упаковки в яйцеварку.

📆 Optimus все еще находится на стадии прототипа. Илон Маск весной предполагал, что производство роботов может начаться в 2024-м году. По задумке Маска, Optimus должны делать все то, что не хочет делать человек.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Сервис, который позволяет стримить и редактировать NeRF

📱 С помощью VideoRF с NeRF можно полноценно работать на смартфонах и планшетах.

Для этого NeRF преобразуют в 2D-стрим с помощью обычных видеокодеков — это позволяет оптимизировать их для работы на мобильном девайсе 🔨.

Работать с видео в реальном времени можно в кастомном плеере, который сделали авторы. Стриминг также позволяет сократить в несколько раз требуемое для работы с NeRF место на устройстве.

В перспективе такое решение можно будет использовать для AR/VR-приложений. А пока ждем код от разработчиков на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Nvidia активнее всех инвестирует в стартапы, пользователи обвинили ChatGPT в лени, суд присяжных приговорил Google Play — и другие важные новости за неделю

TikTok стал первым неигровым приложением, в котором пользователи потратили $10 млрд. Из этой суммы $3,8 млрд были потрачены с начала 2023 года. Самая популярная покупка в соцсети — бандл из 1,3 тыс. монет за $19,99. Монетами пользователи TikTok поддерживают своих любимых авторов;

Apple будет поощрять музыкантов и лейблы за выпуск альбомов в формате пространственного аудио (Dolby Atmos). Как именно будет выглядеть поощрение, не уточняется. Bloomberg предполагает, что артисту будут платить более высокие роялти — даже если никто его записи в Dolby Atmos не послушает;

По итогам года Nvidia оказалась самым активным инвестором в ИИ-стартапы. Главный производитель GPU с января поучаствовал в 35 инвестиционных сделках (в шесть раз больше, чем годом ранее) и вложил в стартапы больше $870 млн. Надо же куда-то тратить полученную в этом году сверхприбыль;

Роскомнадзор рекомендовал хостинг-провайдерам заблокировать бота OpenAI, который индексирует сайты. В ведомстве переживают, что GPTbot может получить доступ к информации «о критических уязвимостях ресурсов»;

Суд присяжных признал Google виновной в нарушении антимонопольного законодательства из-за магазина приложений Google Play. Иск к Google подала Epic Games, которую, например, не устраивало, что на площадке не работают сторонние сервисы оплаты. Интересно, что до этого Epic подавала аналогичный иск к Apple, но тогда судья (а не суд присяжных) встал на сторону производителя айфонов;

Спустя почти месяц OpenAI вновь открыли прием новых платных подписчиков ChatGPT. Компании наконец-то удалось закупить новых GPU;

Пользователи ChatGPT продолжают гадать, почему (как им кажется) чат-бот стал работать медленнее. Новая гипотеза: сервис симулирует зимнюю спячку. Этому даже нашли косвенное подтверждение: если в мае сервис выдавал на запрос ответ из 4 298 знаков, то в декабре ответ на такой же запрос сократился до 4 098 знаков. Возможно, чат-боту просто нужно предложить денег. OpenAI обещают разобраться в ситуации;

Google представил свою лучшую (по утверждению самой компании) нейросеть для генерации изображений. Imagen 2 обещает фотореалистичную картинку и беспрекословное следование промптам. Попробовать пока могут только пользователи платформы Vertex AI;

Meta* показала новую модель для генерации аудио Audiobox, которая построена на модели Voicebox. Новый ИИ может генерировать голос и звуковые эффекты, используя промпты и аудиоклипы;

Midjourney запустила альфа-версию сайта нейросети. Воспользоваться им пока могут только те, кто успел сгенерировать 10 тыс. изображений на сервере Discord. Если вы к таким не относитесь, то тут можно посмотреть, как выглядит и работает страничка;

ЕС согласовал план по регулированию ИИ в ходе сессии, которая в общей сложности длилась 36 часов. Масштабный документ, например, запрещает биометрическую идентификацию по таким параметрам, как раса или сексуальная ориентация, обязует компании маркировать ИИ-контент, а в некоторых случаях — проводить тестирование того, как использование ИИ повлияет на соблюдение фундаментальных прав человека. Компании, не соблюдающие правила, могут получить штраф в размере до 7% от их общемировой выручки;

Газета New York Times наняла сооснователя издания Quartz Зака Сюарда на должность редакционного директора по ИИ. Теперь Сюард должен будет разработать стратегию издания по использованию ИИ внутри редакции и при создании новостного контента;

Сбер представил Pro-версию своей нейросети GigaChat. GigaChat Pro обладает 29 млрд параметров и доступна разработчикам и корпоративным клиентам через API. Сбер советует модель для «сложных, узкоспециализированных задач». Вместе с Pro запустилась Lite-версия, которая подходит для быстрого решения типовых задач при минимальной загрузке системы.

*Организация, запрещенная на территории РФ
👍3
🎬 ИИ-сервис в помощь голливудском продюсеру

Стартап Avail выкатил одноименный инструмент, который должен облегчить одну из главных задач продюсера — чтение сценариев 📚.

Сервис, работающий на ChatGPT, может пересказать полученный сценарий или книгу, из которой надо сделать сценарий, но с учетом специфики кинопроизводства 🍿.

🔎 Это значит, что Avail сразу выделит в тексте логлайн (то есть главную идею текста буквально в одном предложении), ключевых персонажей, тему, жанр и т. д. Сервис может даже посоветовать актеров на роли в будущем фильме.

На 45-страничный сценарий у Avail уходит около пяти минут.

Стартапы уже не первый раз пробуют адаптировать ИИ под нужды кинопроизводства (несмотря на протесты сценаристов и актеров). Мы уже писали про сервис Filmustage, который помогает организовать съемки, и про Showrunner AI. Последний может не только написать сценарий, но и сгенерировать эпизод South Park.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51
This media is not supported in your browser
VIEW IN TELEGRAM
🥤 Mountain Dew использовал ИИ в рекламной акции на Twitch

🎮 Бренд использовал технологию распознавания изображений, чтобы найти стримеров, которые пьют напиток во время трансляции. Стример должен был на камеру выпить Mountain Dew, чтобы ИИ распознал бутылку и этикетку газировки.

Стримеры, которые сделали рекламную интеграцию, автоматически попали в конкурс, где главный приз — помощь в продвижении от Mountain Dew. Компания также пообещала персональный семинар от профессионального стримера/контент-мейкера 👩‍🏫.

🛠 Технологию для акции разработала продакшн-компания Unit9, которая делала рекламу для Adidas, McDonald’s, Blizzard и других.

🥇 Акция проходила с 1 по 8 декабря, но компания почему-то до сих пор не назвала ни одного победителя.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔21
ByteDance создают конкурента GPT — тайно используя разработки OpenAI

Создатели TikTok разрабатывают собственную LLM под кодовым названием Project Seed, нигде не афишируя, что конкурента модели OpenAI они разрабатывают, используя технологии OpenAI.

💬 Verge получил доступ к внутренней переписке сотрудников ByteDance, из которой прямо следует, что разработчики занимаются «отбеливанием» информации, на которой обучается Project Seed, чтобы ее невозможно было связать с GPT. Программисты китайской компании пользуются API конкурента так часто, что регулярно сталкиваются с лимитом на запросы, утверждается в материале Verge.

⚠️ Понятно, чего опасаются в ByteDance, пытаясь скрыть использование GPT. Речь идет не только о репутационном ущербе: в правилах использования языковой модели OpenAI прямо говорится, что ее ни в каком виде нельзя использовать для создания конкурента GPT.

💻 Но давление на разработчиков, которые занимаются ключевым для ByteDance проектом, было настолько серьезным, что они решили пренебречь правилами.

Как пишет Verge, в последние недели в ByteDance сократили использование сервиса конкурента, но до сих пор используют его, например, в качестве бенчмарка для своей модели (а это тоже нарушает правила использования продукта OpenAI) 💻.

🎙 В официальном комментарии ByteDance не отрицают, что использовали GPT, но утверждают, что еще в середине года удалили всю информацию, сгенерированную конкурентом, из датасетов своей разработки.

⛔️ OpenAI после публикации текста Verge заблокировали ByteDance доступ к своим API, чтобы разобраться в ситуации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4
Бывший глава правительства Пакистана с помощью нейросетей ведет предвыборную кампанию из тюрьмы

🍌 Имран Хан потерял свой пост премьер-министра весной 2022, когда военные отстранили его от власти, а в августе нынешнего года его задержали и отправили в тюрьму, где он находится до сих пор.

📆 Это не помешало Хану участвовать в кампании перед предстоящими в феврале всеобщими выборами в стране.

🗣 Однопартийцы политика использовали генеративную нейросеть, чтобы создать голосового клона, который зачитывает речи, написанные Ханом в тюрьме.

⚙️ Для создания клона использовался сервис ElevenLabs.

👀 4-минутную речь виртуального Хана можно услышать в конце онлайн-марафона, который транслировался в YouTube. На момент написания текста у видео было 1,6 млн просмотров.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 ИИ-помощник Microsoft научился генерировать песни

У ассистента Copilot появился плагин сервиса Suno — который умеет по промпту генерировать песни в разных стилях с готовым текстом и вокалом.

Продолжительность трека составляет 1–2 минуты.

🎸 Suno запустила команда разработчиков и музыкантов, среди которых выходцы из TikTok и Meta*. Летом сервис (тогда он назывался Bark) по примеру Midjourney запустился на Discord-сервере, у которого на сегодня почти 230 тыс. пользователей.

Осенью команда выпустила ИИ-модель Chirp, на которой теперь работает сервис.

💵 Премиум-пользователи Suno получают права на коммерческое использование генерации. Тем, кто пожадничал на подписку, монетизировать треки запрещено.

🎧 Потестировать музыкальный сервис можно и без Copilot на сайте. Генерация треков происходит за несколько секунд, правда, звучат они как будто через очень дешевые наушники.

*Организация, запрещенная на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Всем обнимашки: Apple показал модель HUGS для анимации аватаров

HUGS (Human Gaussian Splats) с помощью наших любимых гауссиан (а точнее Gaussian Splatting) за полчаса создает продолжительную анимацию из нескольких кадров 🎞.

Готовые аватары в HD и частотой кадров 60 fps затем можно быстро импортировать в NeRF-сцену.

👕 Из минусов: модель пока не способна во всех деталях отрендерить исходное видео, поэтому некоторые моменты (волосы, детали одежды) HUGS додумывает сама.

🔮 Ожидать появление модели в следующем айфоне не стоит — пока технология существует только в виде эксперимента. Но в теории можно представить, что именно такие аватары могли бы появиться в Vision Pro.
🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤑 Stability AI запустила платное членство для коммерческого использования Stable Diffusion

Стартап придумал Stability AI Membership — программу, которая предлагает три уровня членства, в зависимости от того, кто использует нейросети.

1️⃣ Первый уровень — бесплатный — предназначен для простых пользователей (сюда входят и НКО), которые не собираются использовать генерации нейросетей в коммерческих целях.

2️⃣ Второй уровень предназначен для авторов, стартапов и разработчиков, которые ежегодно получают выручку и/или инвестиции менее $1 млн, а также (в случае с сервисами) имеют меньше 1 млн активных пользователей ежемесячно. Таким пользователям нужно будет платить $20 в месяц.

3️⃣ Наконец, последний уровень — Enterprise — предназначен для крупных компаний. В этом случае условия использования Stability AI хотят обсуждать с каждой компанией отдельно.

Все три уровня предлагают доступ к основным продуктам компании (аудио сюда не входит) и ранний доступ к релизам.

🔩 Новая система должна профинансировать разработку будущих версий SD и стандартизировать использование нейросетей от Stability AI.

Как разработчики будут разбираться с теми, кто уже использует нейросеть для своих платных и бесплатных сервисов, не уточняется 🤷‍♀️.

🦙 Что касается платных уровней, то схема похожа на модель распространения Llama — модель с условно открытым кодом, но для которой нужно получать отдельную лицензию после достижения определенного количества пользователей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
LLM от Google решила нерешаемую задачу, Adobe не смог купить Figma, Microsoft закрыл Mixed Reality — и другие важные новости за неделю

LLM FunSearch от DeepMind смогла найти новые решения для математических задач, с которыми до этого ни разу не встречалась — то есть их упоминания не было в датасете, на котором обучалась модель. По условиям первой задачи необходимо объединить как можно больше точек в пространстве, чтобы три из них не образовали прямую линию. Во второй задаче необходимо упаковать вещи в наименьшее количество контейнеров. Обе задачи считаются «нерешаемыми», так как единого правильного решения для них пока не найдено;

Сделка Figma и Adobe развалилась. Компаниям так и не удалось доказать регуляторам, что покупка разработчиком Photoshop за $20 млрд графического редактора не нарушит антимонопольного законодательства, и они решили просто отказаться от нее. За отмену сделки Adobe выплатит Figma $1 млрд наличными;

Продажи хедсета VisionPro от Apple должны стартовать в феврале. Компании удалось увеличить производство девайса на фабриках в Китае, а уже в январе VisionPro будут готовы для продажи. Apple также разослал разработчикам уведомления с просьбой провести последние тесты своих приложений и отправить их компании на ревью;

Microsoft закрывает платформу Mixed Reality, на которой выходили игры и приложения, поддерживающие VR-шлемы разных производителей. Mixed Reality проработала шесть лет, но виртуальная реальность для Microsoft сейчас не в приоритете: еще в начале года компания сократила целые команды, работавшие над Mixed Reality и хедсетом HoloLens;

Скандально известная языковая модель Gemini Pro от Google оказалась слабее GPT-3,5, выяснили исследователи из университета Карнеги-Меллона. Google на презентации хвастался, что Pro оставляет 3,5 далеко позади. Авторы тестирования предполагают, что в Google использовали собственные бенчмарки, которые завышали показатели модели. Разница в пользу GPT-3,5 оказалась незначительной, тем не менее Gemini Pro проиграла модели, которая вышла на 8 месяцев раньше.
👏3👍21
📝 OpenAI рассказал, как написать хороший промпт

Компания выпустила целый гайд о том, как правильно составить текстовый запрос, чтобы получить от LLM максимально развернутый ответ.

Всего OpenAI выделил 6 эффективных стратегий:

🖋 Задание необходимо четко прописать

Чем меньше модели придется гадать, тем лучше: если ответ нужен краткий, то это надо прописать в промпте, если развернутый — тоже. Проще говоря, LLM нужно указать, в каком формате должен быть ответ.

📚 LLM нужен референс

Чтобы получить четкий ответ без галлюцинаций, модели нужны ссылки на релевантные материалы. Особенно это касается вопросов, которые связаны с конкретным текстом, опубликованным по конкретной ссылке, или наоборот — эзотерических вопросов о смысле жизни. То есть, если хотите получить ответ по конкретному тексту, то скиньте LLM ссылку на этот текст — не тратьте время впустую.

🔨 Сложные задачи надо разбивать на подзадачи

Таким образом, можно значительно снизить процент ошибок, которые может допустить ИИ.

Дайте LLM подумать

Для решения сложной задачи попросите модель использовать метод Chain of Thought, при котором модель описывает каждый шаг, который она делает для решения задачи. Это также снижает вероятность ошибки в ответе.

🛠 Используйте сторонние утилиты

Для LLM существует много дополнений, которые помогают модели лучше справляться, скажем, с написанием кода или анализом информации. Не стесняйтесь использовать эти инструменты.

✔️ Проверяйте результаты LLM с помощью Eval

Для оценки эффективности работы языковой модели необходимы специальные тесты или Eval. Для тестирования LLM можно использовать готовые решения, а можно создать Eval самому. Если говорить упрощенно, то Eval — это золотой стандарт ответов LLM, которому языковая модель должна соответствовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ Google показал видеопоэта

VideoPoet — новая LLM компании для генерации и редактирования видео.

📹 Мультимодальная модель может работать в режимах text-to-video, image-to-video и даже video-to-audio. Последнее на практике означает, что VideoPoet генерирует аудио, подходящее к загруженному в LLM видео.

Плюс, поддерживаются стандартные штуки типа стилизации, инпейнтинга и аутпейнтинга.

💬 Специалисты Google не просто так тренировали именно LLM для генерации видео: языковые модели, по словам разработчиков, более гибкие в настройке, лучше оптимизированы и могут выполнять множество разных задач.

Привычные диффузионные модели для каждой новой задачи требуют изменений на уровне архитектуры, а значит, и больших трудозатрат.

Использование LLM для генерации также позволяет создавать более длинные и стабильные видео в отличие от конкурентов: модель сама генерирует «сценарий» для продолжения клипа, беря за основу его последнюю секунду. В теории такой метод можно использовать для создания видео любой продолжительности.

🎞 На видео выше — история енота, сгенерированная VideoPoet, сценарий для которой написал чат-бот Bard. В будущем разработчики хотят прокачать модель до уровня any-to-any — то есть генерации любого контента из любой входящей информации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3