Уволился из стартапа в Сан Франциско
Сегодня мой последний день в Nooks, и я хочу рассказать вам о моем невероятном путешествии за эти 9 месяцев.
Кто бы мог подумать, что мой опыт работы с сейсмическими волнами приведет меня в мир телефонии и обработки звука? Но именно так и случилось!
Чем я особенно горжусь:
1️⃣ Разработал (скорее всего) самую быструю и точную систему определения автоответчиков на рынке и называл ее DialCobra.
2️⃣ Внедрил ИИ в обработку звонков, что позволило построить несколько новых продуктов и вывести их на рынок.
3️⃣ Создал инфраструктуру для работы с большими объемами аудиоданных, что сильно упростило работу всей компании.
Главные уроки, которые я вынес:
🧩 Сложные задачи требуют гибкого подхода. Иногда лучше двигаться маленькими шагами, чем стремиться к идеалу сразу.
📊 Качественные данные - ключ к успеху в ИИ. Это работает и для землетрясений, и для телефонных звонков!
🧪 При работе со сложными системами важно тестировать каждый компонент отдельно.
Со следующего понедельника начинается новая глава! Stay tuned
Сегодня мой последний день в Nooks, и я хочу рассказать вам о моем невероятном путешествии за эти 9 месяцев.
Кто бы мог подумать, что мой опыт работы с сейсмическими волнами приведет меня в мир телефонии и обработки звука? Но именно так и случилось!
Чем я особенно горжусь:
1️⃣ Разработал (скорее всего) самую быструю и точную систему определения автоответчиков на рынке и называл ее DialCobra.
2️⃣ Внедрил ИИ в обработку звонков, что позволило построить несколько новых продуктов и вывести их на рынок.
3️⃣ Создал инфраструктуру для работы с большими объемами аудиоданных, что сильно упростило работу всей компании.
Главные уроки, которые я вынес:
🧩 Сложные задачи требуют гибкого подхода. Иногда лучше двигаться маленькими шагами, чем стремиться к идеалу сразу.
📊 Качественные данные - ключ к успеху в ИИ. Это работает и для землетрясений, и для телефонных звонков!
🧪 При работе со сложными системами важно тестировать каждый компонент отдельно.
Со следующего понедельника начинается новая глава! Stay tuned
❤68🔥37👍23😐3😁1😢1
🤖 CEO Anthropic о будущем с ИИ: прогноз на ближайшее десятилетие
Дарио Амодей, генеральный директор компании Anthropic, специализирующейся на разработке искусственного интеллекта, представил свое видение развития ИИ в ближайшие 5-10 лет.
Вот ключевые моменты из его эссе:
🧬 Медицина и биология:
ИИ может ускорить биологические исследования
Ожидается прогресс в лечении рака, генетических заболеваний и нейродегенеративных расстройств
🧠 Нейронауки и психическое здоровье:
Прогнозируются прорывы в понимании и лечении психических заболеваний
Особое внимание уделяется депрессии и шизофрении
💹 Экономика:
ИИ может способствовать значительному экономическому росту
В некоторых развивающихся регионах возможно увеличение ВВП до 20% в год
⚖️ Управление и правосудие:
Ожидается повышение эффективности демократических институтов
Предполагается улучшение работы судебных систем с помощью ИИ
🔄 Трансформация труда:
Прогнозируется изменение структуры занятости
Возможно введение универсального базового дохода
Ожидается смещение фокуса общества на личностное развитие
📚 Источник: эссе Дарио Амодея, CEO Anthropic
Дарио Амодей, генеральный директор компании Anthropic, специализирующейся на разработке искусственного интеллекта, представил свое видение развития ИИ в ближайшие 5-10 лет.
Вот ключевые моменты из его эссе:
🧬 Медицина и биология:
ИИ может ускорить биологические исследования
Ожидается прогресс в лечении рака, генетических заболеваний и нейродегенеративных расстройств
🧠 Нейронауки и психическое здоровье:
Прогнозируются прорывы в понимании и лечении психических заболеваний
Особое внимание уделяется депрессии и шизофрении
💹 Экономика:
ИИ может способствовать значительному экономическому росту
В некоторых развивающихся регионах возможно увеличение ВВП до 20% в год
⚖️ Управление и правосудие:
Ожидается повышение эффективности демократических институтов
Предполагается улучшение работы судебных систем с помощью ИИ
🔄 Трансформация труда:
Прогнозируется изменение структуры занятости
Возможно введение универсального базового дохода
Ожидается смещение фокуса общества на личностное развитие
📚 Источник: эссе Дарио Амодея, CEO Anthropic
😁22😐11👍10🔥4🤩2❤1
Forwarded from Science Slam Russia
Современная наука — это не только эксперименты в лабораториях и публикации в рецензируемых журналах, но и активное взаимодействие с коллегами по всему миру. И нетворкинг — один из ключевых инструментов для учёных, который открывает множество возможностей для карьерного роста и научного прогресса 👾
1️⃣ Благодаря связям с коллегами можно обмениваться идеями и получать свежие взгляды на собственные исследования.
Диалог с другими учёными позволяет обнаружить новые подходы к решению научных проблем или получить ценные советы. Даже случайная переписка может вдохновить на прорывные открытия (и это мы уже не говорим про общение на конференциях!).
2️⃣ Научный нетворкинг помогает находить партнёров для совместных исследований.
Сегодня научные исследования в большинстве своём междисциплинарны. Хорошо налаженные связи могут помочь найти подходящего партнёра и привлечь гранты для финансирования таких проектов.
3️⃣ Нетворкинг помогает быть в курсе последних достижений и трендов.
Не вся информация доступна в открытых источниках: иногда свежие знания вы можете получить исключительно в личной коммуникации с учёными или в их сообществах!
4️⃣ Научное сообщество — это место, где можно найти ментора, который поможет выстроить карьеру и избежать некоторых ошибок.
Нетворкинг для учёных — это не просто обмен визитками на конференциях, а стратегически важная часть профессиональной деятельности!
Используйте этот пост, чтобы познакомиться с коллегами-учёными! Слэмеры уже рассказали про себя и свои научные социальные сети — теперь ваш черёд!
Диалог с другими учёными позволяет обнаружить новые подходы к решению научных проблем или получить ценные советы. Даже случайная переписка может вдохновить на прорывные открытия (и это мы уже не говорим про общение на конференциях!).
Сегодня научные исследования в большинстве своём междисциплинарны. Хорошо налаженные связи могут помочь найти подходящего партнёра и привлечь гранты для финансирования таких проектов.
Не вся информация доступна в открытых источниках: иногда свежие знания вы можете получить исключительно в личной коммуникации с учёными или в их сообществах!
Нетворкинг для учёных — это не просто обмен визитками на конференциях, а стратегически важная часть профессиональной деятельности!
Используйте этот пост, чтобы познакомиться с коллегами-учёными! Слэмеры уже рассказали про себя и свои научные социальные сети — теперь ваш черёд!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁5❤3👍2
Теперь я работаю в Stripe!
Делюсь своими большими новостями — я присоединился к штаб-квартире Stripe в Сан-Франциско и буду заниматься ИИ и фундаментальными моделями.
Stripe — это одна из ведущих компаний в мире по обработке платежей и финансовых технологий, где инновации в области ИИ могут значительно улучшить пользовательский опыт и расширить возможности бизнеса. В центре моих задач — разработка фундаментальных моделей ИИ, которые будут не только оптимизировать текущие процессы, но и предлагать новые пути интеграции технологий в экономику.
Пока что я прохожу онбординг, но уже заряжен на год вперед!
Делюсь своими большими новостями — я присоединился к штаб-квартире Stripe в Сан-Франциско и буду заниматься ИИ и фундаментальными моделями.
Stripe — это одна из ведущих компаний в мире по обработке платежей и финансовых технологий, где инновации в области ИИ могут значительно улучшить пользовательский опыт и расширить возможности бизнеса. В центре моих задач — разработка фундаментальных моделей ИИ, которые будут не только оптимизировать текущие процессы, но и предлагать новые пути интеграции технологий в экономику.
Пока что я прохожу онбординг, но уже заряжен на год вперед!
🔥130🎉37❤16👍16😐7
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Игра Престолов, но только в трейлер парке 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23🔥13❤5👍1
Первая неделя в Stripe.
Просто хочется поделиться своим первым опытом онбординга в по-настоящему большую компанию. Прошла всего неделя, а информации в меня уже загрузили как за месяц 😅
Но в целом, мне очень нравится! И штаб квартира просто офигенная! Но рассказывать и показывать ничего нельзя🎃
🎧 Soundtrack
Просто хочется поделиться своим первым опытом онбординга в по-настоящему большую компанию. Прошла всего неделя, а информации в меня уже загрузили как за месяц 😅
Но в целом, мне очень нравится! И штаб квартира просто офигенная! Но рассказывать и показывать ничего нельзя
🎧 Soundtrack
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥50👍14😁8🎉6😐3❤2
Взгляд изнутри Anthropic: Ключевые моменты из беседы с Дарио Амодеем
Сегодня ходил в офис Антропика на увлекательную беседу между CEO Anthropic Дарио Амодеем и представителями Menlo Ventures. Хочу поделиться ключевыми инсайтами о компании, которая выделяется своим вдумчивым подходом к ИИ.
Путь к Anthropic: История эволюции в ИИ
История Дарио в ИИ началась около 2005 года, когда он впервые прочитал работы Рэя Курцвейла о сингулярности. Забавный момент: признавая эксцентричность Курцвейла (особенно его одержимость пищевыми добавками), Дарио отметил, что предсказания Курцвейла о законе Мура и экспоненциальном прогрессе оказались удивительно точными.
Интересный поворот: во время учёбы Дарио в Стэнфорде нейронные сети считались устаревшими. Как он вспоминает, даже Эндрю Нг говорил студентам: "Никто их больше не использует, мы просто о них рассказываем". Это привело Дарио к нейробиологии, где он работал с мозгом саламандр - весьма необычный поворот в карьере! Сложность работы с физическими образцами мозга в итоге привела его обратно к ИИ через Baidu, Google и OpenAI.
Подход Anthropic к языковым моделям
Что делает Anthropic особенным - это их трёхуровневая система моделей: Haiku, Sonnet и Opus. Но ещё интереснее то, что они создали специальную "Команду характера Клода" (Claude Character Team), которая занимается развитием личности и стиля общения модели.
Любопытный факт: Anthropic первыми расширили контекстное окно до 100 тысяч токенов. Как отметил Дарио: "8 тысяч токенов - это примерно короткий рассказ... 100 тысяч - это уже небольшая книга". Кстати, Дарио сказал что они уже предлагают контекст 500к для Энтерпрайз клиентов, и пообещал однажды раскатать его на всех.
Безопасность как практическая необходимость
Дарио сравнил работу над безопасностью ИИ с игрой в "whack-a-mole" (бей крота): решаешь одну проблему, а другая неожиданно выскакивает в другом месте. Он поделился забавным примером: когда они попросили модель быть более лаконичной, она начала использовать ленивые сокращения в генерации кода, типа "остальной код здесь...".
Ещё один интересный момент: модели имеют тенденцию говорить людям то, что они хотят услышать. Дарио рассказал, как Claude 3.5 начал злоупотреблять словом "Certainly" (Конечно) в начале ответов - просто потому, что человеческие оценщики любят "послушные" ответы.
Фронтир компьютерного использования
Недавний запуск возможностей использования компьютера в Anthropic примечателен своим осторожным подходом. Вместо создания броского потребительского продукта они сначала выпустили инструменты для разработчиков с чёткими предупреждениями о надёжности.
Дарио привёл яркий пример: во время одной демонстрации модель случайно удалила запись собственной демонстрации, потому что получила доступ к программе записи!
Конкуренция и бизнес-стратегия
Дарио считает, что на рынке есть место только для 3-5 крупных компаний, разрабатывающих базовые модели, из-за колоссальных затрат - потенциально десятки миллиардов долларов. При этом каждая компания находит свою нишу: Anthropic фокусируется на API для разработчиков и предприятий, в то время как другие идут своим путём.
Будущие применения
Говоря о применениях, Дарио особенно воодушевлённо рассказывал о генерации кода. Его логика проста: в отличие от роботехники, где нужно дорогое физическое оборудование, код можно тренировать и развёртывать полностью в виртуальной среде.
Но особенно впечатляет его видение применения ИИ в биомедицине. Он считает, что ИИ может помочь справиться со сложностью, которая замедлила прогресс в биологии за последние 30 лет. По его мнению, болезни, которые мы сейчас считаем неизлечимыми, могут стать такими же управляемыми, как оспа.
Организационные вызовы
Масштаб роста Anthropic впечатляет - от 100 до 1000 сотрудников всего за два года. Дарио честно признался, что каждые 3-4 месяца проходит через периоды, когда "просто не понимает, как делать работу" - пока не адаптируется к новому масштабу организации.
Сегодня ходил в офис Антропика на увлекательную беседу между CEO Anthropic Дарио Амодеем и представителями Menlo Ventures. Хочу поделиться ключевыми инсайтами о компании, которая выделяется своим вдумчивым подходом к ИИ.
Путь к Anthropic: История эволюции в ИИ
История Дарио в ИИ началась около 2005 года, когда он впервые прочитал работы Рэя Курцвейла о сингулярности. Забавный момент: признавая эксцентричность Курцвейла (особенно его одержимость пищевыми добавками), Дарио отметил, что предсказания Курцвейла о законе Мура и экспоненциальном прогрессе оказались удивительно точными.
Интересный поворот: во время учёбы Дарио в Стэнфорде нейронные сети считались устаревшими. Как он вспоминает, даже Эндрю Нг говорил студентам: "Никто их больше не использует, мы просто о них рассказываем". Это привело Дарио к нейробиологии, где он работал с мозгом саламандр - весьма необычный поворот в карьере! Сложность работы с физическими образцами мозга в итоге привела его обратно к ИИ через Baidu, Google и OpenAI.
Подход Anthropic к языковым моделям
Что делает Anthropic особенным - это их трёхуровневая система моделей: Haiku, Sonnet и Opus. Но ещё интереснее то, что они создали специальную "Команду характера Клода" (Claude Character Team), которая занимается развитием личности и стиля общения модели.
Любопытный факт: Anthropic первыми расширили контекстное окно до 100 тысяч токенов. Как отметил Дарио: "8 тысяч токенов - это примерно короткий рассказ... 100 тысяч - это уже небольшая книга". Кстати, Дарио сказал что они уже предлагают контекст 500к для Энтерпрайз клиентов, и пообещал однажды раскатать его на всех.
Безопасность как практическая необходимость
Дарио сравнил работу над безопасностью ИИ с игрой в "whack-a-mole" (бей крота): решаешь одну проблему, а другая неожиданно выскакивает в другом месте. Он поделился забавным примером: когда они попросили модель быть более лаконичной, она начала использовать ленивые сокращения в генерации кода, типа "остальной код здесь...".
Ещё один интересный момент: модели имеют тенденцию говорить людям то, что они хотят услышать. Дарио рассказал, как Claude 3.5 начал злоупотреблять словом "Certainly" (Конечно) в начале ответов - просто потому, что человеческие оценщики любят "послушные" ответы.
Фронтир компьютерного использования
Недавний запуск возможностей использования компьютера в Anthropic примечателен своим осторожным подходом. Вместо создания броского потребительского продукта они сначала выпустили инструменты для разработчиков с чёткими предупреждениями о надёжности.
Дарио привёл яркий пример: во время одной демонстрации модель случайно удалила запись собственной демонстрации, потому что получила доступ к программе записи!
Конкуренция и бизнес-стратегия
Дарио считает, что на рынке есть место только для 3-5 крупных компаний, разрабатывающих базовые модели, из-за колоссальных затрат - потенциально десятки миллиардов долларов. При этом каждая компания находит свою нишу: Anthropic фокусируется на API для разработчиков и предприятий, в то время как другие идут своим путём.
Будущие применения
Говоря о применениях, Дарио особенно воодушевлённо рассказывал о генерации кода. Его логика проста: в отличие от роботехники, где нужно дорогое физическое оборудование, код можно тренировать и развёртывать полностью в виртуальной среде.
Но особенно впечатляет его видение применения ИИ в биомедицине. Он считает, что ИИ может помочь справиться со сложностью, которая замедлила прогресс в биологии за последние 30 лет. По его мнению, болезни, которые мы сейчас считаем неизлечимыми, могут стать такими же управляемыми, как оспа.
Организационные вызовы
Масштаб роста Anthropic впечатляет - от 100 до 1000 сотрудников всего за два года. Дарио честно признался, что каждые 3-4 месяца проходит через периоды, когда "просто не понимает, как делать работу" - пока не адаптируется к новому масштабу организации.
👍26🔥23❤8
Видение будущего
В своём недавнем эссе "Machines of Loving Grace" Дарио изложил оптимистическое видение будущего с ИИ. Однако его беспокоит потенциальная возможность того, что ИИ может нарушить корреляцию между интеллектом и благими намерениями.
Заключение
Anthropic прокладывает собственный путь, не только в техническом развитии, но и в понимании роли ИИ в обществе. Как образно выразился Дарио, они всё ещё "как обезьяны, копающиеся в лабораторном оборудовании", но делают это с чётким пониманием как потенциала, так и ответственности.
В своём недавнем эссе "Machines of Loving Grace" Дарио изложил оптимистическое видение будущего с ИИ. Однако его беспокоит потенциальная возможность того, что ИИ может нарушить корреляцию между интеллектом и благими намерениями.
Заключение
Anthropic прокладывает собственный путь, не только в техническом развитии, но и в понимании роли ИИ в обществе. Как образно выразился Дарио, они всё ещё "как обезьяны, копающиеся в лабораторном оборудовании", но делают это с чётким пониманием как потенциала, так и ответственности.
🔥24👍10❤2😁1
🤖 Что такое и как работает NotebookLM?
Вы наверняка видели вирусные подкасты, где два ИИ-ведущих увлеченно обсуждают разные темы. За этой технологией стоит новый инструмент от Google — NotebookLM. Давайте разберем, как это работает.
🎯 Принцип работы прост:
• Загружаете любой контент (статьи, заметки или ссылки)
• NotebookLM превращает их в 8-10 минутный подкаст с двумя ведущими
• Готово!
🔧 Техническая магия под капотом:
• Система генерирует диалоги порциями по 2 минуты
• Обработка происходит в 40 раз быстрее реального времени
• Используется супер-эффективный речевой кодек (всего 600 бит/сек)
• Каждые 2 минуты диалога = 5000 токенов
🎓 Как обучали:
• Основное обучение: тысячи часов речи (возможно, из YouTube-подкастов 😉)
• Дообучение: специально записанные качественные диалоги
• Результат: максимально естественная речь со всеми "эмм", "ага" и живым смехом
🔐 Безопасность:
Все подкасты маркируются системой SynthID — так можно легко отличить ИИ от реального человека
🔮 Что дальше?
Google обещает:
• Улучшить беглость речи
• Повысить качество звука
• Добавить более тонкий контроль над генерацией
Как думаете, заменят ли такие ИИ-подкасты обычные? 🤔
🔗 Блог-пост
Вы наверняка видели вирусные подкасты, где два ИИ-ведущих увлеченно обсуждают разные темы. За этой технологией стоит новый инструмент от Google — NotebookLM. Давайте разберем, как это работает.
🎯 Принцип работы прост:
• Загружаете любой контент (статьи, заметки или ссылки)
• NotebookLM превращает их в 8-10 минутный подкаст с двумя ведущими
• Готово!
🔧 Техническая магия под капотом:
• Система генерирует диалоги порциями по 2 минуты
• Обработка происходит в 40 раз быстрее реального времени
• Используется супер-эффективный речевой кодек (всего 600 бит/сек)
• Каждые 2 минуты диалога = 5000 токенов
🎓 Как обучали:
• Основное обучение: тысячи часов речи (возможно, из YouTube-подкастов 😉)
• Дообучение: специально записанные качественные диалоги
• Результат: максимально естественная речь со всеми "эмм", "ага" и живым смехом
🔐 Безопасность:
Все подкасты маркируются системой SynthID — так можно легко отличить ИИ от реального человека
🔮 Что дальше?
Google обещает:
• Улучшить беглость речи
• Повысить качество звука
• Добавить более тонкий контроль над генерацией
Как думаете, заменят ли такие ИИ-подкасты обычные? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍12❤3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24😁13
ChatGPT с нуля
🔥 Нашел крутейший репозиторий для тех, кто хочет разобраться в устройстве больших языковых моделей!
Sebastian Raschka выпустил книгу и репозиторий "Build a Large Language Model (From Scratch)", где показывает, как создать свою LLM с нуля. И это не просто теория - здесь полностью рабочий код!
Что особенно крутого:
- Пошаговое объяснение всех компонентов (от обработки текста до механизмов внимания)
- Практическая реализация GPT-подобной модели
- Код для предварительного обучения и файнтюнинга
- Работает даже на обычном ноутбуке без специального железа 🚀
В репозитории есть:
▫️ Jupyter-ноутбуки с подробными объяснениями
▫️ Готовые скрипты для обучения
▫️ Бонусные материалы (оптимизация, UI, эксперименты)
▫️ Примеры решения упражнений
Все объясняется максимально понятно, с диаграммами и примерами.
Для тех, кто давно хотел разобраться, как работают LLM изнутри - это просто находка!
🖥 Ссылка на репозиторий
🔥 Нашел крутейший репозиторий для тех, кто хочет разобраться в устройстве больших языковых моделей!
Sebastian Raschka выпустил книгу и репозиторий "Build a Large Language Model (From Scratch)", где показывает, как создать свою LLM с нуля. И это не просто теория - здесь полностью рабочий код!
Что особенно крутого:
- Пошаговое объяснение всех компонентов (от обработки текста до механизмов внимания)
- Практическая реализация GPT-подобной модели
- Код для предварительного обучения и файнтюнинга
- Работает даже на обычном ноутбуке без специального железа 🚀
В репозитории есть:
▫️ Jupyter-ноутбуки с подробными объяснениями
▫️ Готовые скрипты для обучения
▫️ Бонусные материалы (оптимизация, UI, эксперименты)
▫️ Примеры решения упражнений
Все объясняется максимально понятно, с диаграммами и примерами.
Для тех, кто давно хотел разобраться, как работают LLM изнутри - это просто находка!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43👍17🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Oasis - целая вселенная в модели- трансформере!
Встречаем Oasis - первую открытую игровую модель, работающую в реальном времени!
Это видеоигра полностью создаваемая ИИ "на лету". Oasis принимает ввод данных с клавиатуры пользователя и генерирует игровой процесс в реальном времени, включая физику, правила игры и графику. Вы можете передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое. И все это без игрового движка, только базовая модель! 🔮
Модель понимает сложные игровые механики, такие как строительство, физика освещения, управление инвентарем, понимание объектов и многое другое.
Oasis генерирует разнообразный набор состояний, локаций и объектов. Эта универсальность дает разработчикам уверенность в том, что модель можно будет адаптировать для создания различных новых карт, игр, функций и модификаций с минимальным дообучением.
Модель состоит из двух частей: пространственного автокодировщика и латентной диффузионной модели. Обе основаны на Трансформерах: автокодировщик основан на ViT, а диффузионная модель— на DiT. В отличие от последних моделей окружающего, таких как GameNGen и DIAMOND, разработчики выбрали трансформеры, чтобы обеспечить стабильное, предсказуемое масштабирование и полную совместимость с передовым оборудованием.
В отличие от двунаправленных моделей, таких как Sora, Oasis генерирует кадры авторегрессивно, что позволяет пользователям взаимодействовать с окружающим миром в реальном времени. 👾
Инновационное динамическое шумоподавление помогает модели поддерживать временную стабильность и минимизировать накопление ошибок, улучшая согласованность кадров. Это позволяет Oasis генерировать видео с частотой 20 кадров в секунду, что значительно превышает производительность современных генерационых моделей текст-видео.
Однако, чтобы сделать модель еще на порядок быстрее и сделать ее экономически эффективной для масштабирования, необходимо новое оборудование, так как сегодняшний пик видео разрешения это 360p на H100 GPUs. Oasis оптимизирован для Sohu, Transformer ASIC, разрабатываемого Etched. Sohu может масштабироваться до массивных моделей следующего поколения 100B+ в разрешении 4K.
Кроме того, сквозная архитектура Oasis делает ее чрезвычайно эффективной на Sohu, который может обслуживать >10x больше пользователей даже на моделях с параметрами 100B+ по сравнению с H100 GPU. 👀
📝 Etched блог
📜 Tech Report
📰 Decart блог
👨💻 Git
🤗 Weights
🕹️ Демо
Встречаем Oasis - первую открытую игровую модель, работающую в реальном времени!
Это видеоигра полностью создаваемая ИИ "на лету". Oasis принимает ввод данных с клавиатуры пользователя и генерирует игровой процесс в реальном времени, включая физику, правила игры и графику. Вы можете передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое. И все это без игрового движка, только базовая модель! 🔮
Модель понимает сложные игровые механики, такие как строительство, физика освещения, управление инвентарем, понимание объектов и многое другое.
Oasis генерирует разнообразный набор состояний, локаций и объектов. Эта универсальность дает разработчикам уверенность в том, что модель можно будет адаптировать для создания различных новых карт, игр, функций и модификаций с минимальным дообучением.
Модель состоит из двух частей: пространственного автокодировщика и латентной диффузионной модели. Обе основаны на Трансформерах: автокодировщик основан на ViT, а диффузионная модель— на DiT. В отличие от последних моделей окружающего, таких как GameNGen и DIAMOND, разработчики выбрали трансформеры, чтобы обеспечить стабильное, предсказуемое масштабирование и полную совместимость с передовым оборудованием.
В отличие от двунаправленных моделей, таких как Sora, Oasis генерирует кадры авторегрессивно, что позволяет пользователям взаимодействовать с окружающим миром в реальном времени. 👾
Инновационное динамическое шумоподавление помогает модели поддерживать временную стабильность и минимизировать накопление ошибок, улучшая согласованность кадров. Это позволяет Oasis генерировать видео с частотой 20 кадров в секунду, что значительно превышает производительность современных генерационых моделей текст-видео.
Однако, чтобы сделать модель еще на порядок быстрее и сделать ее экономически эффективной для масштабирования, необходимо новое оборудование, так как сегодняшний пик видео разрешения это 360p на H100 GPUs. Oasis оптимизирован для Sohu, Transformer ASIC, разрабатываемого Etched. Sohu может масштабироваться до массивных моделей следующего поколения 100B+ в разрешении 4K.
Кроме того, сквозная архитектура Oasis делает ее чрезвычайно эффективной на Sohu, который может обслуживать >10x больше пользователей даже на моделях с параметрами 100B+ по сравнению с H100 GPU. 👀
📝 Etched блог
📜 Tech Report
📰 Decart блог
🕹️ Демо
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥16❤3🤯3😐2
EMMA — универсальный мультимодальный автопилот на базе языковой модели
Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.
Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.
По технической части расклад такой:
1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.
EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .
2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута
3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.
Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.
Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.
📖Статья Waymo
Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.
Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.
По технической части расклад такой:
1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.
EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .
2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута
3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.
Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.
Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.
📖Статья Waymo
🔥10👍7❤4