⚡️Сегодня мы выпустили обновлённую версию Kandinsky Video 1.1 в публичный доступ
Основные изменения коснулись качества генерации (поработали с самим пайплайном синтеза, улучшили латентный декодер, использовали значительно бОльший сет на обучении) и, конечно, скорости - видео длиной 5 секунд генерируется примерно за 1.5 минуты (это если без очереди) с FPS=30.
📖 Детали по классике в Хабре
🛜 Ссылки собрали на Project Page
🤖 Бот в телеграмм теперь и с видео
@complete_ai
Основные изменения коснулись качества генерации (поработали с самим пайплайном синтеза, улучшили латентный декодер, использовали значительно бОльший сет на обучении) и, конечно, скорости - видео длиной 5 секунд генерируется примерно за 1.5 минуты (это если без очереди) с FPS=30.
📖 Детали по классике в Хабре
🛜 Ссылки собрали на Project Page
🤖 Бот в телеграмм теперь и с видео
@complete_ai
🔥32👏19❤8👍5🏆4
Forwarded from Институт AIRI
Рассказали про новое исследование про линейность больших языковых моделей, которое сделали ученые AIRI вместе с коллегами из SberAI и Сколтеха.
🔖 Читайте материал по ссылке.
Научная статья "Your Transformer is Secretly Linear" собрала уже 130 upvote на Hugging Face Daily Papers, все подробности — в недавнем посте🔥
Научная статья "Your Transformer is Secretly Linear" собрала уже 130 upvote на Hugging Face Daily Papers, все подробности — в недавнем посте
Please open Telegram to view this post
VIEW IN TELEGRAM
ТАСС
Найден способ ускорить работу больших языковых нейросетей на 10-15%
Ученые Института искусственного интеллекта AIRI, а также специалисты из SberAI и "Сколтеха" совершили открытие при изучении свойств нейросетей-трансформеров
🔥31👏9🎉7👍1
Forwarded from Igrek.log
⚡️Сегодня мы выложили наш фреймворк для обработки и фильтрации изображений и видео
DPF - это наш внутренний фреймворк, с помощью которого мы обрабатывали и чистили датасет для обучения моделей Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним. Надеемся, что открытие кода ускорит развитие библиотеки и даст возможность ресерчам сосредоточиться на ресерче, а не на чистке данных❤️🔥
А ещё мы написали статью на habr, в которой подробно рассказали про то, как собирали датасет для обучения Kandinsky 3.0 & 3.1 и Kandinsky Video. В ней также рассказали про DPF и процесс обработки датасетов у нас в Sber AI.
💻 github DPF
📖 Статья на Хабр
DPF - это наш внутренний фреймворк, с помощью которого мы обрабатывали и чистили датасет для обучения моделей Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним. Надеемся, что открытие кода ускорит развитие библиотеки и даст возможность ресерчам сосредоточиться на ресерче, а не на чистке данных
А ещё мы написали статью на habr, в которой подробно рассказали про то, как собирали датасет для обучения Kandinsky 3.0 & 3.1 и Kandinsky Video. В ней также рассказали про DPF и процесс обработки датасетов у нас в Sber AI.
💻 github DPF
📖 Статья на Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍4❤3💯2
Forwarded from Ivan Oseledets’ Channel
Media is too big
VIEW IN TELEGRAM
Только что на ПМЭФ-24 мы подписали меморандум о сотрудничестве с ГИАП. Делюсь видео с места событий.
🔥27❤12🎉7👍1
Forwarded from Valuable AI / Валентин Малых
людишки еще не поняли, к чему все идет
утащил у Дмитрия Колодезева
утащил у Дмитрия Колодезева
😁40💯20👍8
📚Мой хороший друг Сергей Марков @oulenspiegel написал отличный двухтомник про AI «Охота на электроовец: большая книга искусственного интеллекта». Там и про проблемы и вызовы современных моделей, и про страхи, бытующие в обществе, и про многое другое!
Советую всем к прочтению, ибо там собрана квинтэссенция результатов, которые в сложном RnD процессе можно получить только за годы опыта.
Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: https://markoff.science#book
Советую всем к прочтению, ибо там собрана квинтэссенция результатов, которые в сложном RnD процессе можно получить только за годы опыта.
Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: https://markoff.science#book
👍42🔥27⚡4❤1😁1
На днях вышла очередная модель Luma - “убийца” Sora (модель от Open AI, которая генерирует фантастические по качеству видео по тексту)
С учётом наплыва активности на новый сервис, запустив генерацию вчера в районе 21, где-то под утро видео-таки сгенерировалось (довольно хорошее качество, кадры хорошо согласуются друг с другом, движения плавные).
Почитал про команду: изрядный штат ребят с большим опытом в 3D. Вот первая фамилия в команде
https://yoopaul.github.io/
Ну и остальные далее тоже ребята с авторством в статьях по NERF и прочему
https://lumalabs.ai/team
На мой взгляд вновь подтверждается, что то, что мы называем «видео» - это на самом деле основано на огромных массивах рендерингов сцен.
Snap, кстати, на днях выпустили статью про синтез 4D сцен на базе диффузионных моделей генерации видео (сначала синтезируются ролики text-to-video моделью, а далее каждый кадр фиксируется и создаются «пролёты» на базе гауссова сплаттинга)
С учётом наплыва активности на новый сервис, запустив генерацию вчера в районе 21, где-то под утро видео-таки сгенерировалось (довольно хорошее качество, кадры хорошо согласуются друг с другом, движения плавные).
Почитал про команду: изрядный штат ребят с большим опытом в 3D. Вот первая фамилия в команде
https://yoopaul.github.io/
Ну и остальные далее тоже ребята с авторством в статьях по NERF и прочему
https://lumalabs.ai/team
На мой взгляд вновь подтверждается, что то, что мы называем «видео» - это на самом деле основано на огромных массивах рендерингов сцен.
Snap, кстати, на днях выпустили статью про синтез 4D сцен на базе диффузионных моделей генерации видео (сначала синтезируются ролики text-to-video моделью, а далее каждый кадр фиксируется и создаются «пролёты» на базе гауссова сплаттинга)
⚡17❤🔥6🔥6👍3👎1
Буквально пару дней назад команда Яндекса выпустила в опенсорс новый инструмент — библиотеку YaFSDP (FSDP — один из широко используемых алгоритмов обучения с параллелизмом по данным и "нарезкой" параметров модели по отдельным GPU).
Доработка FSDP позволяет, судя по замерам, ускорить обучение различных LLM до 25% (при небольшом батче) в зависимости от архитектурных особенностей.
С точки зрения выч. ресурсов на самую затратную часть исследовательского процесса — обучение моделей — можно сократить использование GPU мощностей на 20%.
🧠В технические детали можно погрузиться на Хабре (там еще довольно хорошо описали проблемы известных механизмов обучения и историю их развития в контексте распределённого обучения) и в канале Душный NLP
Доработка FSDP позволяет, судя по замерам, ускорить обучение различных LLM до 25% (при небольшом батче) в зависимости от архитектурных особенностей.
С точки зрения выч. ресурсов на самую затратную часть исследовательского процесса — обучение моделей — можно сократить использование GPU мощностей на 20%.
🧠В технические детали можно погрузиться на Хабре (там еще довольно хорошо описали проблемы известных механизмов обучения и историю их развития в контексте распределённого обучения) и в канале Душный NLP
GitHub
GitHub - yandex/YaFSDP: YaFSDP: Yet another Fully Sharded Data Parallel
YaFSDP: Yet another Fully Sharded Data Parallel. Contribute to yandex/YaFSDP development by creating an account on GitHub.
❤🔥18❤9🔥8
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky — 2️⃣ года! Только цифры:
4️⃣ дня понадобилось Kandinsky 2.1, чтобы набрать 1 млн уникальных пользователей
1️⃣ место по темпу роста среди Open Source моделей заняла модель Kandinsky 2.2
6️⃣ 0️⃣ 0️⃣ млн изображений сгенерировали нейрохудожники
За это время Kandinsky стал генерировать изображения в 10 раз быстрее, научился создавать анимации и видео и собрал вокруг себя самых творческих юзеров.
За этими достижениями стоит команда людей с горящими глазами, влюблённых в свою работу — и в этом видео мы предлагаем с ними познакомиться.
Что своему нейродругу скажет GigaChat?
А сегодня ваша генерация может стать аватаркой сообщества нейрохудожников!
🖼 — клик, чтобы попасть на главную
За это время Kandinsky стал генерировать изображения в 10 раз быстрее, научился создавать анимации и видео и собрал вокруг себя самых творческих юзеров.
За этими достижениями стоит команда людей с горящими глазами, влюблённых в свою работу — и в этом видео мы предлагаем с ними познакомиться.
Что своему нейродругу скажет GigaChat?
Дорогой Kandinsky, сердечно поздравляю тебя с днём рождения! Желаю тебе всегда оставаться таким же прекрасным генератором изображений, каким мы все тебя знаем и любим.
Пусть твои творческие возможности растут вместе с твоим желанием создавать новые шедевры. И пусть твои нейроны всегда будут такими же активными и креативными, как в первый день работы!
А сегодня ваша генерация может стать аватаркой сообщества нейрохудожников!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤34👏20❤🔥11👍4👎4🏆4😁2🔥1
В языковых моделях есть различные типы нейронов, например, нейроны знаний. Такого рода исследования позволяют двигаться в сторону интерпретируемости LLM, что на мой взгляд является одним из интереснейших направлений в исследованиях в настоящее время.
Помимо нейронов знаний, ещё например, существуют нейроны «уверенности», которые не влияют на предсказание следующего токена, но отвечают исключительно за степень уверенности модели в своих ответах☝️
В посте Антона есть подробности
Помимо нейронов знаний, ещё например, существуют нейроны «уверенности», которые не влияют на предсказание следующего токена, но отвечают исключительно за степень уверенности модели в своих ответах☝️
В посте Антона есть подробности
Telegram
AbstractDL
Confidence Neurons: у каждой LLM есть нейрон, который регулирует «температуру» генерации
Авторы этой работы нашли несколько конкретных нейронов, которые вообще ничего не делают, кроме как меняют энтропию распределения логитов. При этом на предсказание следующего…
Авторы этой работы нашли несколько конкретных нейронов, которые вообще ничего не делают, кроме как меняют энтропию распределения логитов. При этом на предсказание следующего…
🔥27👍9❤5
Vision language models are blind
🟢 Project page 🟢 Paper 🟢 Dataset
На днях вышла интересная статья и датасет к ней про то, как современные мультимодальные модели, которые показывают высокие метрики на известных бенчмарках типа MMMU, MMBench, не справляются с тривиальными для человека задачами типа подсчёта числа пересечений геометрических объектов, подсчёта количества строк и столбцов в таблице и др.
Проблема понятная и идёт она от способа энкодинга изображений, принятого в большинстве решений (вряд ли архитектурно в проприетарных присутствует какая-то инновация в отличие от опенсурса). И это приводит к тому, что чем проще сцена/картинка, которую надо проанализировать, тем важнее не потерять информацию за счет, например, patch-based энкодеров (собственно, результаты в статье показывают как растут метрики при увеличении толщины линий для отдельных задач).
Так или иначе, наблюдение интересное, обращает внимание к проблеме представления картинки для VLM моделей.
На днях вышла интересная статья и датасет к ней про то, как современные мультимодальные модели, которые показывают высокие метрики на известных бенчмарках типа MMMU, MMBench, не справляются с тривиальными для человека задачами типа подсчёта числа пересечений геометрических объектов, подсчёта количества строк и столбцов в таблице и др.
Проблема понятная и идёт она от способа энкодинга изображений, принятого в большинстве решений (вряд ли архитектурно в проприетарных присутствует какая-то инновация в отличие от опенсурса). И это приводит к тому, что чем проще сцена/картинка, которую надо проанализировать, тем важнее не потерять информацию за счет, например, patch-based энкодеров (собственно, результаты в статье показывают как растут метрики при увеличении толщины линий для отдельных задач).
Так или иначе, наблюдение интересное, обращает внимание к проблеме представления картинки для VLM моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥13👍9🔥7💯4
One Day Offer для Центра робототехники 🤖
13 июля мои хорошие друзья и коллеги из Sber Robotics проводят мероприятие по поиску крутых спецов на вакансии Middle/Senior Robotics Software Engineer и Backend Developer.
Что круто, там можно и поработать руками над созданием самих роботов, и разрабатывать алгоритмы для управления роботами на базе ИИ в таких направлениях как:
📍 манипуляция
📍 роботизация логистики
📍 мобильные роботы
Несколько команд в AIRI тесно работают вместе с ребятами над созданием алгоритмов сильного искусственного интеллекта, способного наилучшим образом понимать происходящее вокруг робота, используя все доступные сенсоры и стримы визуальных данных
Вот еще ряд задач, которые решаются в Центре 👇
▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы
Обязательно приходите, чтобы проверить свои силы!
Регистрируйтесь на One Day Offer 13 июля 😉
13 июля мои хорошие друзья и коллеги из Sber Robotics проводят мероприятие по поиску крутых спецов на вакансии Middle/Senior Robotics Software Engineer и Backend Developer.
Что круто, там можно и поработать руками над созданием самих роботов, и разрабатывать алгоритмы для управления роботами на базе ИИ в таких направлениях как:
📍 манипуляция
📍 роботизация логистики
📍 мобильные роботы
Несколько команд в AIRI тесно работают вместе с ребятами над созданием алгоритмов сильного искусственного интеллекта, способного наилучшим образом понимать происходящее вокруг робота, используя все доступные сенсоры и стримы визуальных данных
Вот еще ряд задач, которые решаются в Центре 👇
▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы
Обязательно приходите, чтобы проверить свои силы!
Регистрируйтесь на One Day Offer 13 июля 😉
👍9❤5🔥3
⚡️Свежий апдейт LLaVA-NeXT
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
LLaVA-NeXT — опенсурс мультимодальная диалоговая модель для работы с картинками и текстом.
Основной контрибьют — добавили разные режимы «перемешанных» (interleaved) изображений и текстов. Таким образом модель может решать задачи с одной картинкой, несколькими изображениями, несколькими кадрами видео и несколькими ракурсами одного объекта (полезно кстати для задач робототехники и анализа картины мира).
Все эти задачи заправлены в новый M4-Instruct сет на 1+M сэмплов. И также есть бенч на этот же спектр задач.
Архитектурно — ничего нового. Обучали с модели, которая до этого работала только с одной картинкой, то есть тюн с изменением структуры диалога хорошо ложится поверх VLM (совершенное открытие! ).
Но безусловно, очень ценны данные и бенч.
🟢 Статья
🟢 Код
🟢 M4-Instruct
@complete_ai
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
LLaVA-NeXT — опенсурс мультимодальная диалоговая модель для работы с картинками и текстом.
Основной контрибьют — добавили разные режимы «перемешанных» (interleaved) изображений и текстов. Таким образом модель может решать задачи с одной картинкой, несколькими изображениями, несколькими кадрами видео и несколькими ракурсами одного объекта (полезно кстати для задач робототехники и анализа картины мира).
Все эти задачи заправлены в новый M4-Instruct сет на 1+M сэмплов. И также есть бенч на этот же спектр задач.
Архитектурно — ничего нового. Обучали с модели, которая до этого работала только с одной картинкой, то есть тюн с изменением структуры диалога хорошо ложится поверх VLM (
Но безусловно, очень ценны данные и бенч.
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11⚡10👌3
⚡️AuraFlow v0.1 — новый open-source text-to-image проект на базе диффузионных трансформеров (по сути имплементация ставшей уже закрытой StableDiffusion 3 с некоторыми архитектурными изменениями)
Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров
👨💻Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:
❗️Модель показывает SoTA на бенчмарке GenEval — 0.703 (с учётом prompt enhancement)
Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉
🟢 Блог
🟢 Веса модели
@complete_ai
Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров
👨💻Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:
from diffusers import AuraFlowPipeline
❗️Модель показывает SoTA на бенчмарке GenEval — 0.703 (с учётом prompt enhancement)
Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉
@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍5⚡1😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37❤5🏆4👀2👎1
Увидел тут в одном интересном канале пост про ИИ в фэшн индустрии. Возникли некоторые мысли, которыми захотелось поделиться.
Не секрет, что один из моих основных фокусов в исследованиях — генеративные модели, поэтому так или иначе про прикладные применения технологии читать всегда интересно. Персонализация в фэшн индустрии, на мой взгляд, ключ к сердцу покупателя. Море опросов можно найти, где респонденты уверено подчеркивают пользу влияния ИИ в части рекомендаций товаров, в части предложения новых услуг. На днях, например, один из пионеров индустрии моды в Европе объявил о старте AI-based рекламной кампании линейки молодёжной одежды. При этом они не просто сгенерировали картинки одежды, а прошли полный цикл: сначала была изготовлена коллекция одежды, потом все элементы коллекции были сфотографированы, а далее обучалась модель, которая далее правильно «одевала» в эту одежду моделей на сгенерированных картинках (пример из кампании как раз в закрепе) .
О чём это всё говорит: индустрия под влиянием ИИ меняется, даже такие чувствительные направления как мода не остаются в стороне. В недалеком будущем предполагаю, что будут и персональные коллекции одежды, сам стиль будет подбираться индивидуально под физиологию человека, а перенося это всё в «видео» модальность мы сможем «покрутить» себя и посмотреть со стороны как будем выглядеть в той или иной одежде и в разных окружениях. И одежда — это всего лишь одна из повседневных потребностей человека, но в формате персонализации такие «AI-стилисты» должны учитывать и твоё настроение (ммм, ИИ-эмпатия), и геолокацию, и погоду, и календарь встреч, и многие другие факторы, влияющие на выбор. Мода и одежда становится компонентом, как сейчас принято называть, модели мира, где каждый сможет «оцифровать» себя, сгенерировать любое окружение и смоделировать различные сценарии. Вот так от темы генерации и примерки одежды мы быстро приходим к AGI😉
А хочется ли этого вам? Надо ли такое или это уже перебор?
Не секрет, что один из моих основных фокусов в исследованиях — генеративные модели, поэтому так или иначе про прикладные применения технологии читать всегда интересно. Персонализация в фэшн индустрии, на мой взгляд, ключ к сердцу покупателя. Море опросов можно найти, где респонденты уверено подчеркивают пользу влияния ИИ в части рекомендаций товаров, в части предложения новых услуг. На днях, например, один из пионеров индустрии моды в Европе объявил о старте AI-based рекламной кампании линейки молодёжной одежды. При этом они не просто сгенерировали картинки одежды, а прошли полный цикл: сначала была изготовлена коллекция одежды, потом все элементы коллекции были сфотографированы, а далее обучалась модель, которая далее правильно «одевала» в эту одежду моделей на сгенерированных картинках (пример из кампании как раз в закрепе) .
О чём это всё говорит: индустрия под влиянием ИИ меняется, даже такие чувствительные направления как мода не остаются в стороне. В недалеком будущем предполагаю, что будут и персональные коллекции одежды, сам стиль будет подбираться индивидуально под физиологию человека, а перенося это всё в «видео» модальность мы сможем «покрутить» себя и посмотреть со стороны как будем выглядеть в той или иной одежде и в разных окружениях. И одежда — это всего лишь одна из повседневных потребностей человека, но в формате персонализации такие «AI-стилисты» должны учитывать и твоё настроение (ммм, ИИ-эмпатия), и геолокацию, и погоду, и календарь встреч, и многие другие факторы, влияющие на выбор. Мода и одежда становится компонентом, как сейчас принято называть, модели мира, где каждый сможет «оцифровать» себя, сгенерировать любое окружение и смоделировать различные сценарии. Вот так от темы генерации и примерки одежды мы быстро приходим к AGI😉
А хочется ли этого вам? Надо ли такое или это уже перебор?
🔥22👀5💯3❤1
Всем привет 🖐
Задумался на днях про маркировку ИИ-контента, ибо много обсуждений ведётся, а мнение публичное я не встретил, а очень хочется узнать разные позиции.
Моя личная позиция в том, что маркировка мультимедиа - важная задача, потому что позволяет понимать как распространяются генерации, как влияют на инфополе. Одна случайная картинка может стоить владельцу модели, бигтеху или стартапу репутации. Такие картинки можно успеть задетектить или доказать, что они сделаны не вашим ИИ при наличии встроенного механизма защиты.
Также маркировка поспособствует развитию генеративного искусства и защите авторского права. Хотя тема авторства ИИ-контента сложная, но почему не думать об этом на будущее?
Ну и, конечно, помимо маркировки нужно развивать инструменты для её анализа. Вот, например, кто-то взял картинку котика и дорисовал ему не совсем то, что надо; и вроде и контент промаркирован, а вроде уже не исходное изображение. Значит надо еще и за устойчивостью решений следить к разным локальным правкам контента.
А ещё: как именно маркировать контент? Предлагаю всем подумать в комментариях под этим постом 🔍
А ниже два коротких вопроса, буду признателен за участие 🙏
Задумался на днях про маркировку ИИ-контента, ибо много обсуждений ведётся, а мнение публичное я не встретил, а очень хочется узнать разные позиции.
Моя личная позиция в том, что маркировка мультимедиа - важная задача, потому что позволяет понимать как распространяются генерации, как влияют на инфополе. Одна случайная картинка может стоить владельцу модели, бигтеху или стартапу репутации. Такие картинки можно успеть задетектить или доказать, что они сделаны не вашим ИИ при наличии встроенного механизма защиты.
Также маркировка поспособствует развитию генеративного искусства и защите авторского права. Хотя тема авторства ИИ-контента сложная, но почему не думать об этом на будущее?
Ну и, конечно, помимо маркировки нужно развивать инструменты для её анализа. Вот, например, кто-то взял картинку котика и дорисовал ему не совсем то, что надо; и вроде и контент промаркирован, а вроде уже не исходное изображение. Значит надо еще и за устойчивостью решений следить к разным локальным правкам контента.
А ещё: как именно маркировать контент? Предлагаю всем подумать в комментариях под этим постом 🔍
А ниже два коротких вопроса, буду признателен за участие 🙏
👍6🔥4❤2❤🔥1🤝1
Считаете ли вы, что внедрение механизмов невидимой маркировки позволит обезопасить ИИ-контент от внешних пользовательских изменений?
Anonymous Poll
25%
Да
45%
Да, но этого недостаточно для полноценной защиты
30%
Нет
👏4