Forwarded from Институт AIRI
Лекции «Лето с AIRI 2024» — в плейлисте в VK Видео 🔥
Выложили записи лекций и семинаров летней школы по искусственному интеллекту «Лето с AIRI» с ведущими исследователями научных организаций и технологических компаний.
📎 Сохраняйте ссылку на плейлист
Выложили записи лекций и семинаров летней школы по искусственному интеллекту «Лето с AIRI» с ведущими исследователями научных организаций и технологических компаний.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24❤10👍8❤🔥1
Как вам темы международного совещания по ИИ 1977 года в Ленинграде? Большая часть является актуальной в современных статьях по мультимодальным и генеративным моделям😅
По ссылке скан приглашения профессора Стэнфорда на мероприятие
По ссылке скан приглашения профессора Стэнфорда на мероприятие
🔥43❤🔥9😁5👍4🙊2
На днях вышла интересная работа про учёт физики в генеративных text-to-video моделях и вообще возможности называть такие модели «моделями мира». Авторы показывают, что на исключительно на большом объёме наблюдений выучить закономерность модели не могут. Проверяют на законе сохранении энергии, законе инерции и 2м законе Ньютона в задачах на плоскости. Занимательные эксперименты и даже есть код для воспроизведения)
В целом, вопрос достаточно дискуссионный, и я планирую сделать мини обзор подходов к этой задаче в ближайшее время, потому что синтез видео в задачах аугментации или «расширения обзора» полезно и нужно в ряде направлений, особенно в робототехнике и беспилотном автотехе.
В целом, вопрос достаточно дискуссионный, и я планирую сделать мини обзор подходов к этой задаче в ближайшее время, потому что синтез видео в задачах аугментации или «расширения обзора» полезно и нужно в ряде направлений, особенно в робототехнике и беспилотном автотехе.
2💯23👍10🔥8
🚡Волею судеб оказался на горнолыжном курорте, но не катаюсь ни на чем, относящемся к спускам)))
Хочется, собственно, совет получить:
Хочется, собственно, совет получить:
Anonymous Poll
59%
Лыжи
41%
Сноуборд
👾1
⚡️Компания Sony не так часто выходит с какими-то громкими релизами. Но вот анонсировали 2 модели на NeurIPS 2024: GenWarp и PaGoDA
Первая про синтез 3D сцен по одной картинке (судя по качеству интересно проверить для задач робототехники и 3D моделирования)
Вторая про генерацию картинок в высоком разрешении на базе low-res предобученной модели (вычислительно эффективно — максимум 32 карты A100, рост разрешения с 32x32 до 512x512 почти без потери качества)
Детали тут👇
Ссылка
Первая про синтез 3D сцен по одной картинке (судя по качеству интересно проверить для задач робототехники и 3D моделирования)
Вторая про генерацию картинок в высоком разрешении на базе low-res предобученной модели (вычислительно эффективно — максимум 32 карты A100, рост разрешения с 32x32 до 512x512 почти без потери качества)
Детали тут👇
Ссылка
2❤9🔥4👀4👍2
❤🔥11🔥8👍5
Выступал сегодня на фесте «Формула будущего» в Иннополисе. Разгоняли со студентами тему карьеры в науке: с чего начать, как выглядит карьерный трек, как построена работа у меня в лабе в AIRI, какие направления занимают пальму «популярности» сейчас в исследованиях, а также о симбиозе науки и бизнеса в современных реалиях.
Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪
Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉
UPD: презентация доклада в комментариях 👇
Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪
Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉
UPD: презентация доклада в комментариях 👇
2❤18🔥14⚡6❤🔥3👍2
⚡️Reducio! Microsoft в соавторстве с Гарри Поттером на днях выпустил статью про свой новый image-conditioned VAE для видео
За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)
Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.
Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!
По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥
Статья
Код
Веса
За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)
Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.
Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!
По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥
Статья
Код
Веса
2🔥13⚡10❤5👍2
⚡️Вот и релиз новой языковой модели OLMo2 от Allen Institute подоспел
Просто взгляните на метрики💪
https://allenai.org/blog/olmo2
@complete_ai
Просто взгляните на метрики💪
https://allenai.org/blog/olmo2
@complete_ai
1🔥15👍4🏆3🤝2
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет «сегодня» — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
Т - триллион😊
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет «сегодня» — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
👀17🙊5🔥3👍2
Complete AI
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐 Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) —…
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon?
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
👍13🔥3❤2
Forwarded from Институт AIRI
Исследователи из лаборатории «Сильный ИИ в медицине» и лаборатории FusionBrain AIRI вошли в топ-5 соревнования MIDRC XAI Challenge 🔥
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
📎 Подробнее об участии в конкурсе команда рассказала в свежей статье на нашем Хабре.
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥5👍2
Complete AI
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon? Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova: 📍Micro — маленькая языковая модель, быстрая и дешевая (контекст…
the_amazon_nova_family_of_models_technical_report_and_model_card.pdf
20.2 MB
☝️Метрики и детали в большом техническом отчете
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
👍5🔥3😁3❤1